Bayes'sche Regression - Hat jemand einen EA mit diesem Algorithmus erstellt? - Seite 35

 

Was, schon wieder nicht genug????

Nun, für mehr:

Abhängig: AUDNZD Mehrfach R = .83469441 F = 3845.556

R?= .69671476 df = 1.1674

Anzahl der Fälle: 1676 bereinigte R?= .69653358 p = .000000

Standardfehler der Schätzung: .053321255

Achsenabschnitt: 6.047516031 Std.Fehler: .0782142 t( 1674) = 77.320 p = 0.0000


 

Kontrolle an den Kopf:

Abhängig: NZDCAD Mehrfach R = .87619213 F = 5532.591

R?= .76771265 df = 1.1674

Anzahl der Fälle: 1676 bereinigte R?= .76757389 p = .000000

Standardfehler der Schätzung: .032035522

Achsenabschnitt: -2.664033151 Std.Fehler: .0469913 t( 1674) = -56.69 p = 0.0000


 
Дмитрий:

Ist R^2 bereits "sehr niedrig"?

Gibt es eine Korrelation?

Die Korrelation ist nicht nachweisbar. R ist schwach. Ich verwende R2 sehr aktiv bei der Bewertung der Aktienqualität meiner Strategien, und glauben Sie mir, ich habe Hunderte von Charts gesehen, bei denen R2 ähnlich wie hier dargestellt war. Diese ist völlig blechern und von SB nicht zu unterscheiden.

 
Vasiliy Sokolov:

Die Beziehung ist nicht nachweisbar. R ist schwach. Ich selbst verwende R2 sehr aktiv zur Bewertung der Aktienqualität meiner Strategien, und glauben Sie mir, ich habe Hunderte von Charts gesehen, deren R2 in etwa dem hier dargestellten Wert entsprach. Diese ist völlig blechern und von SB nicht zu unterscheiden.

))))))))))))))))))))))))))0
 

Ich erinnere mich, dass ich in einem R-Projekt folgendes gemacht habe: Ich habe tausend zufällige Markttrajektorien mit jeweils tausend Messungen erzeugt. Dann habe ich eine lineare Regression für jeden dieser Werte durchgeführt und den R^2-Wert ermittelt. Der resultierende Vektor der R^2-Werte erwies sich als ein gleichmäßig verteilter Wert von Null bis 0,99... Mit einem Mittelwert von etwa 0,5. Ich schlage allen vor, mein Ergebnis zu wiederholen und über das Wesentliche dessen nachzudenken, was wir zählen.

s.w. Schade, dass ich R oder diese Codes nicht zur Hand habe, sonst würde ein Bild mehr als tausend Worte sagen...

 
Vasiliy Sokolov:
Ich erinnere mich, dass ich so etwas in einem R-Projekt gemacht habe: Ich habe tausend zufällige Markttrajektorien mit jeweils tausend Messungen erzeugt. Dann habe ich eine lineare Regression für jeden dieser Werte durchgeführt und den R^2-Wert ermittelt. Der resultierende Vektor der R^2-Werte erwies sich als ein gleichmäßig verteilter Wert von Null bis 0,99... Mit einem Mittelwert von etwa 0,5. Ich lade alle ein, mein Ergebnis zu wiederholen und über das Wesentliche dessen nachzudenken, was wir zählen.

И?

Was ist der Sinn des Geschriebenen? Dass die Regressionsanalyse nicht mit der Begründung verwendet werden sollte, dass eine der n-ten generierten PRNG-Reihen einen großen R^2 aufweisen kann?

Es ist also notwendig, alle Methoden der Statistik und der Vorhersage zu verwerfen.

 
Vasiliy Sokolov:

Ich bin erstaunt über das hohe Niveau der Beherrschung mathematischer Methoden durch die Diskussionsteilnehmer und ihr völliges Unverständnis für die Grundsätze ihrer Anwendbarkeit. Alle Regressionsanalysen korrelierten Daten. Wenn es keine Korrelation gibt, ist die Regression nicht anwendbar. Ist die Verteilung der untersuchten Größen nicht normal, sind auch die Methoden der parametrischen Statistik nicht anwendbar. Der Markt hat nicht die Eigenschaft der Normalität. Auch der Markt als Prozess ist nicht von der Zeit abhängig. Beide streichen die Idee der Regressionsanalyse, ganz gleich, worum es sich im Kern handelt.

Das Problem ist, dass viele Teilnehmer, auch Sie, die Regression nicht verstehen und obskure Definitionen verwenden. Bei einer ordnungsgemäßen Definition der Regressionsanalyse gibt es keine Grenze für die Fehlerverteilung. Die Hauptsache ist, dass die Fehler statistisch unabhängig voneinander sind, damit der gesamte Regressionsfehler als Summe der Funktionen der einzelnen Fehler dargestellt werden kann. Alles andere sind Spezialfälle der Regression. So gilt die Anforderung der Fehlernormalität nur für die Regression zum Mittelwert, d. h. wenn der gesamte Regressionsfehler als Summe der Quadrate der einzelnen Fehler dargestellt wird. Dies ist die einfachste Methode der Regression und führt zur Lösung eines Systems linearer Gleichungen. Wenn Sie nicht von der Normalität der Fehler ausgehen wollen, verwenden Sie eine andere Verteilung. Anstelle der Summe der Quadrate wird der Gesamtfehler durch die Summe einer anderen Funktion der einzelnen Fehler dargestellt.

Lassen Sie mich versuchen, es so zu erklären. Angenommen, wir haben Messungen y und Eingangsdaten x. Tragen wir y auf x auf. Die Punkte von y(x) bilden eine Wolke. Wenn diese Wolke kreisförmig ist und die Dichte der Punkte in allen Richtungen gleichmäßig ist, dann kann man die Fehlerverteilung noch so sehr verdrehen, das Modell y(x) gibt es nicht, da y und x unabhängig sind. Wenn sich diese Wolke in eine bestimmte Richtung erstreckt, können wir ein Modell erstellen. In diesem Fall haben wir mehrere Modelle zur Auswahl:

1. Konstruieren Sie eine lineare y_mod(x) = a + b*x oder eine nichtlineare y_mod(x) = F(x) = Beispiel = a0 + a1*x + a2*x^2 +... Modelle.

2. Unter der Annahme der Unabhängigkeit der Messfehler e[i] = y[i] - y_mod[i] nehmen wir deren Normalität err_sum = SUM e[i]^2 oder Nicht-Normalität err_sum = SUM G(e[i]) an, wobei G() eine beliebige "nicht-quadratische" Funktion ist, z. B. G(e) = |e|, oder im allgemeinen Fall G(e) = |e|^p. Man kann es auch übertreiben und eine Fehlerfunktion erstellen, bei der z. B. negative Werte von y[i] stärker gewichtet werden. Die Wahl von G(e) hat keinen Einfluss auf die Vorhersagbarkeit von y in Abhängigkeit von x. Sie wirkt sich nur darauf aus, wie wir eine gerade Linie durch die Wolke y(x) zeichnen. Wenn z. B. G(e) = e^10 ist, dann liegt diese Gerade näher an größeren Werten von y.

Die Wahl zwischen einem linearen y_mod(x) = a + b*x oder einem Polynom y_mod(x) = a0 + a1*x + a2*x^2 +... Modell hängt von der Form unserer langgestreckten Wolke ab. In beiden Fällen können wir die Regression nach dem quadratischen Mittelwert verwenden, was zu einem System linearer Gleichungen führt, das schnell gelöst werden kann.

Lassen Sie uns nun über die Zeit sprechen. Wenn y(t) und x(t) von der Zeit abhängen, was in fast allen Regressionsfällen der Fall ist, da die Messungen zu unterschiedlichen Zeitpunkten vorgenommen werden, ändert das nichts an der Sache. Wir können immer noch von einer Regression y(t) = F(x(t)) sprechen. Wenn die Funktion y(t) = F(x(t)) zeitabhängig ist, d. h. y(t) = F(x(t),t), dann ist die statische Regression y=F(x) über das gesamte Zeitintervall nicht anwendbar. Es sollte ein dynamisches Modell y=F(x,t) verwendet werden.

 
Vladimir:
Nach den Forschungen eines Mathematikers (ich erinnere mich nicht an seinen Nachnamen, er arbeitet für FINAM) ist die Verteilung annähernd normal mit verlängerten Schwänzen (aber es ist verständlich, warum). Daher ist die lineare Regression imho das Maß aller Dinge.
 
Yuriy Asaulenko:
Nach den Untersuchungen eines Mathematikers (ich erinnere mich nicht an seinen Nachnamen, er arbeitet für die FINAM) ist die Verteilung annähernd normal mit verlängerten Schwänzen (aber es ist verständlich, warum). Die lineare Regression ist also imho recht gut.
Ich habe eine Menge verschiedener Fehlerverteilungen ausprobiert. Ich habe keinen besonderen Unterschied bei den Ergebnissen festgestellt, aber die Berechnungszeit erhöht sich erheblich. Aus diesem Grund verwende ich die RMS-Regression. Ich habe Angst, sie als linear zu bezeichnen, weil die Funktion y(x) zwar nicht linear in der Variable x, aber linear in den Modellkoeffizienten sein kann. In diesem Fall führt die quadratisch gemittelte Regression immer noch zu einer deutlichen Beschleunigung der Berechnungen. Anstatt so viel Zeit auf die Theorien der Anwendbarkeit von Normalität und Regression zu verwenden, ist es viel wichtiger, über die Vorbereitung der Eingabedaten zu sprechen, denn ich kann diese Wolke y(x) zeichnen oder sie durch eine einfache Transformation von Eingabe x und Messungen y kreisförmig machen. Wie wir eine gerade Linie oder eine Parabel durch diese Wolke ziehen und Modellierungsfehler (Quadrate oder absolute Werte) berechnen, ist eine sekundäre Angelegenheit.
 

Ich appelliere an die Skeptiker.

Meine Damen und Herren, meine Damen und Herren, liebe Genossinnen und Genossen! Es befindet sich zu viel Blut in Ihrem Alkoholkreislauf.(C)

Was kann man mit R mathematisch modellieren, wenn man sich nicht auf die konzeptionellen Fragen für die Bayes-Formel geeinigt hat: Wie groß ist der Markt rechts vom Null-Balken? Und ist es ein Markt? Oder vielleicht ein guter Spielsimulator mit einem geeigneten Algorithmus? Welche Verteilung und Wahrscheinlichkeitsfunktion ist zu wählen?

Die Welt hat mit der Normalverteilung kein gutes Ende genommen. Bayes war tot, als Gauß geboren wurde. Ich habe vorgeschlagen, die Normalverteilung zu nehmen, weil ihr Skeptiker sie überzeugend dargestellt habt. Und wenn ihr Skeptiker sagt, das passt nicht, das trifft nicht zu, dann schlagt bitte etwas anderes vor als das, was bereits vorgeschlagen wurde. Ihre Likelihood-Funktion und das Verteilungsgesetz können auf die Bayes-Formel angewendet werden, wie ich es z.B. auf S.31 im Beitrag vom 8. März unter dem Strauß beschrieben habe. Und sehen Sie, was passiert.