Tuesday 7 November 2017

Moving Durchschnittliche Box Jenkins


Das Box-Jenkins ARMA-Modell ist eine Kombination der AR - und MA-Modelle (beschrieben auf der vorherigen Seite): start Xt delta phi1 X phi2 X cdots phip X At - theta1 A - theta2 A - cdots - thetaq A. Wobei die Ausdrücke in der Gleichung dieselbe Bedeutung haben wie für das AR - und MA-Modell. Kommentare zu Box-Jenkins Model Ein paar Anmerkungen zu diesem Modell. Das Box-Jenkins-Modell geht davon aus, dass die Zeitreihe stationär ist. Box und Jenkins empfiehlt, nichtstationäre Serien ein oder mehrere Male zu differenzieren, um Stationarität zu erreichen. So entsteht ein ARIMA-Modell, mit dem ich für Integrated stehe. Einige Formulierungen transformieren die Reihe, indem sie den Mittelwert der Reihe von jedem Datenpunkt subtrahieren. Dies ergibt eine Reihe mit einem Mittelwert von null. Ob Sie dies tun müssen oder nicht ist abhängig von der Software, die Sie verwenden, um das Modell zu schätzen. Box-Jenkins Modelle können erweitert werden, um saisonale autoregressive und saisonale gleitende durchschnittliche Bedingungen. Obwohl dies die Notation und die Mathematik des Modells kompliziert, sind die zugrundeliegenden Konzepte für saisonale autoregressive und saisonale gleitende Durchschnittsterme ähnlich zu den nicht-saisonalen autoregressiven und gleitenden Durchschnittstermen. Das allgemeinste Box-Jenkins-Modell umfasst Differenzoperatoren, autoregressive Terme Durchschnittliche Konditionen, saisonale Differenzenoperatoren, saisonale autoregressive Begriffe und saisonale gleitende Durchschnittskonditionen. Wie bei der Modellierung im Allgemeinen sollten jedoch nur notwendige Begriffe in das Modell aufgenommen werden. Wer sich für die mathematischen Details interessiert, kann auf Box, Jenkins und Reisel (1994) eingehen. Chatfield (1996). Oder Brockwell und Davis (2002). Stufen in Box-Jenkins Modellierung Die folgenden Bemerkungen zu den Box-Jenkins-Modellen sind zu beachten. Box-Jenkins-Modelle sind sehr flexibel aufgrund der Einbeziehung der beiden autoregressive und gleitende durchschnittliche Begriffe. Ausgehend von der dort nicht dargestellten Wold-Zerlegung kann ein stationärer Vorgang durch ein ARMA-Modell approximiert werden. In der Praxis findet man, dass die Annäherung nicht leicht sein kann. Chatfield (1996) empfiehlt Zersetzungsmethoden für Serien, in denen der Trend und die saisonalen Komponenten dominant sind. Gebäude gut ARIMA-Modelle erfordern in der Regel mehr Erfahrung als häufig verwendete statistische Methoden wie Regression. Ausreichend lange Serie erforderlich Typischerweise erfordert eine effektive Montage von Box-Jenkins-Modellen mindestens eine mäßig lange Serie. Chatfield (1996) empfiehlt mindestens 50 Beobachtungen. Viele andere würden mindestens 100 Beobachtungen empfehlen. Der erste Schritt bei der Entwicklung eines Box-Jenkins-Modells besteht darin, festzustellen, ob die Serie stationär ist und ob es eine signifikante Saisonalität gibt, die modelliert werden muss. Stationarität kann anhand eines Ablaufablaufplots beurteilt werden. Das Ablaufdiagramm sollte eine konstante Position und Skalierung aufweisen. Es kann auch aus einem Autokorrelationsdiagramm nachgewiesen werden. Insbesondere wird die Nichtstationarität oft durch eine Autokorrelationsdiagramm mit sehr langsamem Abfall angezeigt. Differenzierung zur Stationarität Box und Jenkins empfehlen den differenzierenden Ansatz, um Stationarität zu erreichen. Jedoch kann auch das Anpassen einer Kurve und das Subtrahieren der angepassten Werte aus den ursprünglichen Daten auch im Zusammenhang mit Box-Jenkins-Modellen verwendet werden. Bei der Modellidentifizierungsphase ist es unser Ziel, jahreszeitliche Erkennung, falls vorhanden, zu erkennen und den Auftrag für die saisonalen autoregressiven und saisonal gleitenden Durchschnittsbedingungen zu ermitteln. Für viele Serien ist die Periode bekannt und ein einzelner Saisonalitätsausdruck ist ausreichend. Zum Beispiel für monatliche Daten würden wir typischerweise entweder eine saisonale AR 12 Begriff oder eine saisonale MA 12 Begriff. Bei Box-Jenkins-Modellen wird das Modell vor der Montage nicht explizit entfernt. Stattdessen beinhalten wir die Reihenfolge der Saisonbegriffe in der Modellspezifikation zur ARIMA-Schätzsoftware. Es kann jedoch hilfreich sein, einen saisonalen Unterschied zu den Daten anzuwenden und die Autokorrelation und die partiellen Autokorrelationsdiagramme zu regenerieren. Dies kann bei der Modellidentifizierung der nicht-saisonalen Komponente des Modells helfen. In einigen Fällen kann die saisonale Differenzierung die meisten oder alle der Saisonalität Wirkung zu entfernen. Identifizieren Sie p und q Sobald die Stationarität und die Saisonalität adressiert worden sind, besteht der nächste Schritt darin, die Reihenfolge (d. h. (p) und (q)) der autoregressiven und gleitenden Durchschnittsterme zu identifizieren. Autokorrelation und partielle Autokorrelationsdiagramme Die primären Werkzeuge dafür sind das Autokorrelationsdiagramm und das partielle Autokorrelationsdiagramm. Die Stichproben-Autokorrelationsdiagramm und die Stichproben-Autokorrelationsdiagramm werden mit dem theoretischen Verhalten dieser Diagramme verglichen, wenn die Reihenfolge bekannt ist. Reihenfolge des Autoregressiven Prozesses ((p)) Speziell für ein AR (1) - Verfahren sollte die Autokorrelationsfunktion der Probe eine exponentiell abnehmende Erscheinung aufweisen. AR-Prozesse höherer Ordnung sind jedoch oft ein Gemisch aus exponentiell abnehmenden und gedämpften sinusförmigen Komponenten. Für autoregressive Prozesse höherer Ordnung muss die Stichproben-Autokorrelation mit einem partiellen Autokorrelationsdiagramm ergänzt werden. Die partielle Autokorrelation eines AR ((p)) - Prozesses wird bei Verzögerung (p & sub1;) und grßer, so dass wir die partielle Autokorrelationsfunktion untersuchen, um festzustellen, ob es einen Beweis für eine Abweichung von Null gibt. Dies wird in der Regel durch das Platzieren eines 95-Konfidenzintervalls auf das partielle Autokorrelationsdiagramm der Probe bestimmt (die meisten Softwareprogramme, die Beispiel-Autokorrelationsdiagramme erzeugen, werden ebenfalls dieses Konfidenzintervall aufzeichnen). Wenn das Softwareprogramm nicht das Vertrauensband erzeugt, ist es ungefähr (pm 2sqrt), wobei (N) die Stichprobengröße bezeichnet. Ordnung des gleitenden Durchschnittsprozesses ((q)) Die Autokorrelationsfunktion eines MA ((q)) Prozesses wird bei der Verzögerung (q & sub1;) und größer größer, so daß wir die Autokorrelationsfunktion der Probe untersuchen, um zu sehen, wo sie im wesentlichen Null wird. Wir tun dies, indem wir das 95-Konfidenzintervall für die Stichproben-Autokorrelationsfunktion auf das Stichproben-Autokorrelationsdiagramm legen. Die meisten Software, die das Autokorrelationsdiagramm erzeugen kann, kann auch dieses Vertrauensintervall erzeugen. Die partielle Autokorrelationsfunktion ist im Allgemeinen nicht hilfreich, um die Reihenfolge des gleitenden Durchschnittsprozesses zu bestimmen. Form der Autokorrelationsfunktion Die folgende Tabelle fasst zusammen, wie wir die Stichproben-Autokorrelationsfunktion für die Modellidentifikation verwenden. Ein leichter Einstieg in die Box-Jenkins-Methode für die Zeitreihenvorhersage Das autoregressive integrierte Moving Average Modell oder kurz ARIMA ist ein statistisches Standardmodell für die Zeit Serie Prognose und Analyse. Zusammen mit ihrer Entwicklung schlagen die Autoren Box und Jenkins auch ein Verfahren zur Identifizierung, Schätzung und Überprüfung von Modellen für einen bestimmten Zeitreihendatensatz vor. Dieser Vorgang wird nun als Box-Jenkins-Methode bezeichnet. In diesem Beitrag, entdecken Sie die Box-Jenkins-Methode und Tipps für die Verwendung auf Ihre Zeitreihe Vorhersage Problem. Im Einzelnen werden Sie lernen: Über die ARIMA-Prozess und wie die 3 Schritte der Box-Jenkins-Methode. Best Practice-Heuristiken zur Auswahl der q-, d - und p-Modellkonfiguration für ein ARIMA-Modell. Auswertung von Modellen durch Überarbeitung und Restfehler als Diagnoseverfahren. Lassen Sie uns beginnen. Eine sanfte Einführung in die Box-Jenkins-Methode für die Zeitreihenprognose Foto von Erich Ferdinand. Einige Rechte vorbehalten. Autoregressives integriertes Moving Average Modell Ein ARIMA Modell ist eine Klasse von statistischem Modell zur Analyse und Prognose von Zeitreihendaten. ARIMA ist eine Abkürzung für A uto R egressive I ntegration M oving A verage. Es ist eine Verallgemeinerung des einfacheren AutoRegressive Moving Average und fügt den Begriff der Integration hinzu. Dieses Akronym ist beschreibend und erfasst die wichtigsten Aspekte des Modells selbst. Kurz, sie sind: AR. Autoregression. Ein Modell, das die abhängige Beziehung zwischen einer Beobachtung und einer gewissen Anzahl von verzögerten Beobachtungen verwendet. ICH . Integriert. Die Verwendung der Differenzierung von rohen Beobachtungen (d. H. Subtrahieren einer Beobachtung von einer Beobachtung bei der vorherigen Zeitstufe), um die Zeitreihe stationär zu machen. MA Gleitender Durchschnitt . Ein Modell, das die Abhängigkeit zwischen einer Beobachtung und Restfehlern aus einem gleitenden Durchschnittsmodell verwendet, das auf verhaltene Beobachtungen angewendet wird. Jede dieser Komponenten wird explizit im Modell als Parameter angegeben. Eine Standardnotation wird von ARIMA (p, d, q) verwendet, wobei die Parameter mit ganzzahligen Werten ersetzt werden, um schnell das spezifische verwendete ARIMA-Modell anzuzeigen. Die Parameter des ARIMA-Modells sind wie folgt definiert: p. Die Anzahl der Lag-Beobachtungen in das Modell, auch die Lag-Reihenfolge. D. Die Häufigkeit, mit der die Rohbeobachtungen differenziert werden, auch Differenzgrad genannt. Q. Die Größe der gleitenden mittleren Fenster, auch die Reihenfolge der gleitenden Durchschnitt genannt. Box-Jenkins-Methode Die Box-Jenkins-Methode wurde von George Box und Gwilym Jenkins in ihrem Seminal 1970 Lehrbuch Zeitreihe Analyse: Prognose und Kontrolle vorgeschlagen. Der Ansatz beginnt mit der Annahme, dass der Prozess, der die Zeitreihe erzeugte, unter Verwendung eines ARMA-Modells, wenn es stationär ist, oder eines ARIMA-Modells, wenn es nicht stationär ist, angenähert werden kann. Die 2016 5. Auflage des Lehrbuchs (Teil 2, Seite 177) bezieht sich auf den Prozess als stochastisches Modellbauwerk und ist ein iterativer Ansatz, der aus den folgenden drei Schritten besteht: Identifizierung. Verwenden Sie die Daten und alle damit zusammenhängenden Informationen, um zu helfen, eine Unterklasse des Modells auszuwählen, die die Daten am besten zusammenfassen kann. Einschätzung . Verwenden Sie die Daten, um die Parameter des Modells zu trainieren (d. h. die Koeffizienten). Diagnoseprüfung. Beurteilen Sie das eingebaute Modell im Rahmen der verfügbaren Daten und prüfen Sie auf Bereiche, in denen das Modell verbessert werden kann. Es ist ein iterativer Prozess, so dass, wenn neue Informationen während der Diagnose gewonnen werden, können Sie zurück zu Schritt 1 zurückkehren und das in neue Modellklassen integrieren. Let8217s werfen einen Blick auf diese Schritte im Detail. 1. Identifikation Der Identifizierungsschritt wird weiter unterteilt in: Beurteilung, ob die Zeitreihe stationär ist, und wenn nicht, wie viele Unterschiede erforderlich sind, um sie stationär zu machen. Identifizieren Sie die Parameter eines ARMA-Modells für die Daten. 1.1 Unterschiede Im Folgenden finden Sie einige Tipps zur Identifikation. Einheitenstammtests. Verwenden Sie Einheitswurzel statistische Tests auf der Zeitreihe zu bestimmen, ob es stationär ist oder nicht. Wiederholen Sie nach jeder Runde der Differenzierung. Vermeiden Sie über differencing. Die Differenzierung der Zeitreihen mehr als erforderlich ist, kann dazu führen, dass zusätzliche serielle Korrelation und zusätzliche Komplexität hinzukommen. 1.2 Konfigurieren von AR und MA Für die Auswahl der Parameter p und q des ARMA oder ARIMA stehen zwei Diagnose-Diagramme zur Verfügung. Sie sind: Autokorrelationsfunktion (ACK). Das Diagramm fasst die Korrelation einer Beobachtung mit Lag-Werten zusammen. Die x-Achse zeigt die Verzögerung und die y-Achse zeigt den Korrelationskoeffizienten zwischen -1 und 1 für negative und positive Korrelation. Teilweise Autokorrelationsfunktion (PACF). Das Diagramm fasst die Korrelationen für eine Beobachtung mit Verzögerungswerten zusammen, die nicht durch vorverlegte Beobachtungen berücksichtigt werden. Beide Diagramme sind als Balkendiagramme dargestellt, die die Konfidenzintervalle 95 und 99 als horizontale Linien darstellen. Stäbe, die diese Konfidenzintervalle kreuzen, sind daher wichtiger und bemerkenswerter. Einige nützliche Muster, die Sie auf diesen Plots beobachten können, sind: Das Modell ist AR, wenn der ACF nach einer Verzögerung nachläuft und einen harten Cutoff in der PACF nach einer Verzögerung hat. Diese Verzögerung wird als der Wert für p genommen. Das Modell ist MA, wenn die PACF nach einer Verzögerung nachläuft und nach der Verzögerung eine harte Abschaltung im ACF hat. Dieser Verzögerungswert wird als der Wert für q genommen. Das Modell ist eine Mischung aus AR und MA, wenn sowohl die ACF und PACF Weg weg. 2. Schätzung Schätzung beinhaltet die Verwendung von numerischen Methoden, um einen Verlust oder Fehler Begriff zu minimieren. Wir gehen nicht in die Details der Schätzung von Modellparametern, da diese Details von der ausgewählten Bibliothek oder dem Werkzeug behandelt werden. Ich würde empfehlen, sich auf ein Lehrbuch für ein tieferes Verständnis der Optimierung Problem von ARMA und ARIMA-Modelle und Optimierungsmethoden wie begrenzt-Speicher-BFGS gelöst werden, um es zu lösen gelöst werden. 3. Diagnoseprüfung Die Idee der Diagnoseprüfung ist, nach Beweisen zu suchen, dass das Modell nicht gut für die Daten geeignet ist. Zwei nützliche Bereiche zur Untersuchung der Diagnose sind: 3.1 Overfitting Die erste Überprüfung soll überprüfen, ob das Modell die Daten überträgt. Im Allgemeinen bedeutet dies, dass das Modell komplexer ist als es sein muss und erfasst zufälliges Rauschen in den Trainingsdaten. Dies ist ein Problem für die Zeitreihenvorhersage, da es sich negativ auf die Fähigkeit des Modells zur Verallgemeinerung auswirkt, was zu einer schlechten Prognoseperformance bei Probedaten führt. Sorgfältige Aufmerksamkeit muss sowohl der Probenahme als auch der Out-of-Sample-Leistung geboten werden, und dies erfordert den sorgfältigen Entwurf eines robusten Prüfkabelbaums zur Auswertung von Modellen. 3.2 Restfehler Die prognostizierten Residuen bieten eine große Chance für die Diagnostik. Eine Überprüfung der Verteilung von Fehlern kann dazu beitragen, Bias in dem Modell zu necken. Die Fehler aus einem idealen Modell ähneln weißen Rauschen, das ist eine Gaußsche Verteilung mit einem Mittelwert von Null und einer symmetrischen Varianz. Dazu können Sie Dichteplots, Histogramme und Q-Q-Diagramme verwenden, die die Verteilung der Fehler mit der erwarteten Verteilung vergleichen. Eine nicht-Gaußsche Verteilung kann eine Möglichkeit zur Datenvorverarbeitung nahe legen. Eine Schiefe in der Verteilung oder ein Nicht-Null-Mittelwert kann eine Vorspannung in Prognosen vorschlagen, die korrekt sein können. Zusätzlich würde ein ideales Modell keine zeitliche Struktur in der Zeitreihe der prognostizierten Residuen verlassen. Diese können durch Erstellen von ACF - und PACF-Diagrammen der Restfehlerzeitreihen überprüft werden. Das Vorliegen einer seriellen Korrelation in den Restfehlern legt eine weitere Möglichkeit für die Verwendung dieser Information in dem Modell nahe. Weiterführende Literatur Die definitive Ressource zum Thema ist die Zeitreihenanalyse: Prognose und Kontrolle. Ich würde die 2016 5. Auflage, insbesondere Teil 2 und Kapitel 6-10 empfehlen. Im Folgenden sind einige zusätzliche Lesungen, die helfen können, Ihr Verständnis, wenn Sie schauen, um tiefer gehen: In diesem Beitrag entdeckten Sie die Box-Jenkins-Methode für die Zeitreihe Analyse und Prognose. Insbesondere haben Sie gelernt: Über das ARIMA-Modell und die 3 Schritte der allgemeinen Box-Jenkins-Methode. Verwendung von ACF - und PACF-Diagrammen zur Auswahl der Parameter p und q für ein ARIMA-Modell. Wie benutzt man Overfitting und Restfehler, um ein passendes ARIMA-Modell zu diagnostizieren. Haben Sie Fragen zur Box-Jenkins Methode oder zu diesem Beitrag Fragen Sie in den Kommentaren Ihre Fragen und ich werde mein Bestes tun, um zu antworten. Über Jason Brownlee Jason ist Chefredakteur bei MachineLearningMastery. Er ist ein Mann, stolzer Vater, wissenschaftlicher Forscher, Autor, professioneller Entwickler und ein maschinenlesender Praktiker. Er hat einen Master und PhD in Künstliche Intelligenz, hat Bücher über Machine Learning veröffentlicht und hat geschrieben operativen Code, der in der Produktion läuft. Mehr erfahren. Wie Residual Fehler zu korrigieren Time Series Prognosen mit Python

No comments:

Post a Comment