Abhängigkeitsstatistik in Anführungszeichen (Informationstheorie, Korrelation und andere Methoden der Merkmalsauswahl) - Seite 19

 
Candid:

Sie brauchen nicht zu kommentieren, Sie müssen versuchen, meine Fragen zu beantworten. Ich verrate Ihnen ein Geheimnis: Sie sind so konzipiert, dass Sie etwas verstehen, wenn Sie versuchen, sie zu beantworten.)

Ich habe übrigens die Diskussion gelesen, wollen Sie ernsthaft eine 17-seitige Mischung aus Fliegen und Koteletts diskutieren?

Liege ich mit meiner Vermutung, wie Sie die beiden Prozesse nennen, überhaupt richtig?

Ich weiß nicht, wo Sie auf Seite 17 eine Mischung aus Koteletts und Fliegen gesehen haben. Es kam vorhin zur Sprache...

Was das Verständnis betrifft, so empfehle ich, sich die Tabelle von Alexey anzusehen und die Frage zu beantworten, unter der Annahme welcher theoretischen Verteilung sie erstellt wurde.

;)

 

und die beiden Prozesse sind theoretisch (die Nullhypothese) und real.

Das müssen Sie wissen.

 
joo:

Ich verstehe die Hälfte der Worte in diesem Thread überhaupt nicht, aber selbst ich habe verstanden, dass Verteilungen nichts damit zu tun haben.

Die Verteilung eines Prozesses, bei dem Abhängigkeiten zwischen einzelnen Zählungen bestehen, muss weder gleichmäßig noch normal sein. Das ist offensichtlich.

Beispiel: die Gedichte von Puschkin. Wenn im Text die Worte "Eiche" und "Kette" vorkommen, dann steht irgendwo in der Nähe auch "Katze". Diese Beziehung zwischen den Wörtern hat nichts mit der Verteilung des Wortes "tom" oder eines anderen Wortes in den Absätzen zu tun.

Wissen Sie, wie primitiv es ist, die Echtheit der Urheberschaft zu überprüfen?

So lässt sich aus der Häufigkeit der Kombinationen "dub-chain-cat" aus den "Referenztexten" und den geprüften - eine Schlussfolgerung ziehen.

Denn es gibt immer eine Basis für einen Vergleich.

Aber hier verstehe ich nicht, was mit was verglichen wird?

Wobei die theoretische Frequenz ist. Oder besser gesagt, wem gehört sie?

Vielleicht hat Candid recht, und wir müssen nur nach Griechenland auswandern, und alles wird sich fügen?

;)

 
avatara:

Ich weiß nicht, wo Sie auf Seite 17 eine Mischung aus Koteletts und Fliegen gesehen haben. Es war schon vorher da...

Hier ist wieder das Problem mit dem Ende: Aus 17 Seiten wurde Seite 17. Würden Sie bitte diese 17 Seiten noch einmal lesen, um andere "Tippfehler" zu entdecken?
und die beiden Prozesse sind theoretisch (Nullhypothese) und real
Da ich in meinem ersten Beitrag den Themenstarter zitiert habe, wäre es logischer, davon auszugehen, dass ich mich in erster Linie auf seine Version bezogen habe. Zumal er sie im Gegensatz zu Alexey sehr detailliert beschrieben hat. Ich bin mir jedoch nicht sicher, ob die Identifizierung von Hypothesen mit Prozessen zur Klarheit der Darstellung beiträgt.
Was das Verständnis betrifft, so empfehle ich, sich die Tabelle Alexey anzusehen und die Frage zu beantworten, unter der Annahme welcher theoretischen Verteilung sie erstellt wurde.

Ehrlich gesagt: Ich weiß es nicht. Ich würde mich auf eine empirische Verteilung stützen.
 
avatara:

und die beiden Prozesse sind theoretisch (die Nullhypothese) und real.

Das sollten Sie wissen.

Nein, falsch. Ich interpretiere dieses Kriterium. Die Statistiken sind übrigens die gleichen. Sie gilt nur für andere Mengen.

Nun zu den beiden Variablen, deren Unabhängigkeit getestet werden soll. In der von mir veröffentlichten Blocktabelle sind dies die Erträge von zwei Takten im Abstand von 310 Takten (309 Takte dazwischen). Die Statistiken werden auf der Grundlage der gesamten Population solcher Balkenpaare in der Vergangenheit überprüft. Wenn es 60000 Balken in der Historie gibt, dann gibt es 59690=60000-310 solcher Balkenpaare.

Der Balken, der weiter in der Vergangenheit liegt, ist die Quelle des S . Der gepaarte Balken, der näher an der Gegenwart liegt, ist der Empfänger R . Die Rückgaben S und R sind die Werte, deren Unabhängigkeit geprüft wird. Genauer gesagt, nicht die Renditen selbst, sondern die Quantile, in die sie fallen. Der Grund für die Teilung durch Quantile wurde bereits erläutert: um das Chi-Quadrat zu ermöglichen (Häufigkeiten von mindestens 10).

Über den Ochsen als Hauptursache des Phänomens werde ich nachdenken. Etwas ist hier nicht so einfach... Aber der Vorschlag von Candid macht Sinn, es zu testen (den Ochsen zu entfernen).

 

Ich habe mir den Artikel des Autors kurz angesehen. Ich habe den Verdacht, dass der Autor keine Korrelation zwischen den Variablen aktueller Balken <-> vergangener Balken gefunden hat, sondern nur die Tatsache der Häufung der Volatilität. Natürlich ist das Diagramm auch auf dieser Grundlage interessant, da eine sichere Korrelation der Volatilität bis zu einer Verzögerung von 50-60 Tagen etwas Neues ist. Beim Mischen der Daten nach der Monte-Carlo-Methode bricht die Clusterbildung natürlich zusammen, was in den Diagrammen deutlich zu sehen ist.

Um zu verstehen, was gefunden wurde, ist es notwendig, die vorgeschlagene Formel auf nicht-normale und offensichtlich unabhängige Verteilungen zu testen, insbesondere auf die klassische GARCH(1,1) oder besser noch auf GARCH(3,3); Wenn auch hier eine Abhängigkeit gefunden werden kann, liefert die Formel nichts Neues, sie definiert einfach einen Spezialfall des Martingals auf eine weitere Art und Weise.

Wenn der Autor es wünscht, kann ich ihm synthetische GARCH-Returns zur Verfügung stellen.

 

Ich danke Ihnen. Geben Sie mir einige künstliche Daten, ich werde sie am Wochenende testen.

Und was die Formel angeht: Ja, sie hat nichts besonders Schönes an sich, es ist eine stochastische Analyse aus einem anderen Blickwinkel.

Was die Volatilität betrifft, so wurde hier bereits viel gesagt, und ich stimme mit den Ansichten überein. Aber die Anzahl der Lags, über die unabhängige Variablen Volatilitätsinformationen für den Null-Balken tragen, ist wirklich klar angegeben. Und die Tiefe der Verzögerungsdelle ist für verschiedene Finanzinstrumente unterschiedlich, wobei die Relevanz der Informationen erhalten bleibt.

 
Ich bin generell der Meinung, dass, wenn man die Renditen nicht auf der Grundlage der vergangenen Renditen vorhersagen kann, für mich persönlich immer die Möglichkeit besteht, auf das Problem der Auswahl unabhängiger Variablen (verschiedener Indikatoren) für die Vorhersage zurückzukommen. Das Thema heißt Feature Selection, und ich bin gerne bereit, andere Methoden zu diskutieren, wie z.B. die Hauptkomponentenanalyse, die Verwendung von NS mit auto-assoziativem Gedächtnis, trainierte Netzwerkanalyse (Gewichte), Clusteranalyse, Chi-Quadrat, es gibt auch den Lipschitz-Exponenten (Korrektur: konstant). Alles in allem, Leute, ist es ein großes Thema...
 
C-4: Natürlich ist das Diagramm auch auf dieser Grundlage interessant, denn eine sichere Volatilitätskorrelation mit 50-60 Lags ist etwas Neues.

Vielen Dank, dass Sie das bemerkt haben. Das ist es, was so alarmierend ist. Wahrscheinlich erklärt die Vola einen großen Teil des Phänomens, aber nicht alles. Und bei einer Uhr geht diese Korrelation sogar noch weiter zurück... Hunderte Bars tief.

Übrigens gibt es an den Tagen deutlich weniger Korrelationen als an H4, die wiederum weit weniger Korrelationen aufweisen als H1.

 
Mathemat:

Vielen Dank, dass Sie das bemerkt haben. Das ist es, was so alarmierend ist. Wahrscheinlich erklärt die Vola einen großen Teil des Phänomens, aber nicht alles. Und bei der Armbanduhr geht diese Korrelation sogar noch weiter. Hunderte Bars tief.

Übrigens gibt es an den Tagen deutlich weniger Korrelationen als an H4, die wiederum weit weniger Korrelationen aufweisen als H1.


Wenn es sich wiederum um Volatilität handelt, dann lässt sich diese sehr gut durch eine deutliche Zyklizität in Abhängigkeit von der Tageszeit erklären:

Man muss kein Einstein sein, um selbst mit bloßem Auge die Anhäufung des Ochsen um 16:30 Uhr zu erkennen. Auf der Intraday-Skala sind solche "Korrelationen" daher natürlich viel eindeutiger. Und das bringt uns natürlich sowieso nichts. Wir wissen nur, dass es um 16:30 Uhr zu starken Bewegungen kommt (wie wir auf dem Chart sehen können), die durch Volatilitätszuflüsse verursacht werden, aber wir kennen weder die Richtung der Bewegung noch ihre Ziele.

Wie versprochen, füge ich eine synthetische Berechnung ein - GARCH(1,1) mit den von MathLab angebotenen Standardparametern: garchset('P',1,'Q',1,'C', 0.0001, 'K', 0.00005, 'GARCH', 0.8, 'ARCH', 0.1); ich habe es nicht geschafft, GARCH(3,3) oder noch mehr zu machen - ich kenne das Programm schlecht und eine einfache Änderung von 'P',1,'Q',1 zu 'P',3,'Q',3 hat nicht funktioniert. Die Serie umfasst 10 000 Tests, was meiner Meinung nach völlig ausreichend ist. Hier ist das Kursdiagramm:

Es wäre auch interessant, einen SB auf der Grundlage der stündlichen Volatilitätsdaten desselben EURUSD zu erstellen. Er hat den gleichen Volatilitätscharakter wie der EURUSD, aber das Diagramm selbst besteht zu 100% aus Rauschen. Wenn sie die Abhängigkeit aufdeckt, bedeutet dies, dass die Methode nicht für die Preisprognose geeignet ist, aber wenn sie die Abhängigkeit nicht aufdeckt, werden wir Zeuge der Geburt eines neuen Indikators, der in der Lage ist zu bestimmen, ob wir es mit sinnlosen abstrusen Synthetiken oder dem realen Markt zu tun haben.

Dateien:
garch.zip  91 kb