Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 189
Sie verpassen Handelsmöglichkeiten:
- Freie Handelsapplikationen
- Über 8.000 Signale zum Kopieren
- Wirtschaftsnachrichten für die Lage an den Finanzmärkte
Registrierung
Einloggen
Sie stimmen der Website-Richtlinie und den Nutzungsbedingungen zu.
Wenn Sie kein Benutzerkonto haben, registrieren Sie sich
In fast jedem Buch über Datamining werden die Verfahren zur Entfernung korrelierter Prädiktoren beschrieben.
Zusammenwirkende Prädiktoren sind nicht unbedingt korreliert... Sie interagieren auf Ziel....
Und das Vorhandensein von Interaktion führt zu Ergebnissen der Art:
> summary(lm(data = train_sample_list[[1]], price_future_lag_diff_6 ~ price_diff_lag_11 * price_diff_min_lag_16))
Call:
lm(formula = price_future_lag_diff_6 ~ price_diff_lag_11 * price_diff_min_lag_16,
data = train_sample_list[[1]])
Residuals:
Min 1Q Median 3Q Max
-0.035970 -0.000824 0.000001 0.000847 0.027278
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.883e-05 3.146e-05 1.234 0.21714
price_diff_lag_11 4.828e-02 9.092e-03 5.310 1.12e-07 ***
price_diff_min_lag_16 -3.055e-02 1.141e-02 -2.678 0.00743 **
price_diff_lag_11:price_diff_min_lag_16 -3.520e+00 3.515e-01 -10.014 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.0024 on 10465 degrees of freedom
Multiple R-squared: 0.01611, Adjusted R-squared: 0.01583
F-statistic: 57.11 on 3 and 10465 DF, p-value: < 2.2e-16
Alle Prädiktoren sind signifikant (und ihre Interaktion). F-Statistiken sind fantastisch...
Interagierende Prädiktoren korrelieren nicht unbedingt... Sie interagieren auf Ziel....
Und das Vorhandensein von Wechselwirkungen führt zu den Ergebnissen der Arten:
> summary(lm(data = train_sample_list[[1]], price_future_lag_diff_6 ~ price_diff_lag_11 * price_diff_min_lag_16))
Call:
lm(formula = price_future_lag_diff_6 ~ price_diff_lag_11 * price_diff_min_lag_16,
data = train_sample_list[[1]])
Residuals:
Min 1Q Median 3Q Max
-0.035970 -0.000824 0.000001 0.000847 0.027278
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.883e-05 3.146e-05 1.234 0.21714
price_diff_lag_11 4.828e-02 9.092e-03 5.310 1.12e-07 ***
price_diff_min_lag_16 -3.055e-02 1.141e-02 -2.678 0.00743 **
price_diff_lag_11:price_diff_min_lag_16 -3.520e+00 3.515e-01 -10.014 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.0024 on 10465 degrees of freedom
Multiple R-squared: 0.01611, Adjusted R-squared: 0.01583
F-statistic: 57.11 on 3 and 10465 DF, p-value: < 2.2e-16
Alle Prädiktoren sind signifikant (und ihre Interaktion). F-Statistiken sind fantastisch...
Eidechse_:
Keine Daten...
Wenn es keine Daten gibt, gibt es auch nichts zu diskutieren.
Ruhe... du!
Yur, zumindest nicht dumm sein) Nur vergessen, wer Ihnen gesagt, in 9 y.y., dass Ihr Netzwerk nicht richtig konfiguriert ist, und mit einem polyanalyst kann die Formel ziehen))))
Es gibt keine Vorurteile und Geheimnisse, ich verwende Standard-DM-Tools, manchmal mit kleinen Änderungen. Wenn Sie nur an den Verweisen interessiert sind, hören Sie zu,
aber die Realitäten sind etwas anders... Das vorherige Experiment wurde mit echten Daten durchgeführt. Ich habe es mit einfachen künstlichen Daten gemacht. Der erste Satz wurde absolut anerkannt
richtig. Ich habe gerade ......... hinzugefügt. Die Antwort sollte 100% sein, aber jPrediction 11 ist so scharfsinnig "ii", dass sie es schafft, sich zu verraten))) Kurz gesagt: Feinabstimmung,
Das Gerät funktioniert noch nicht. Ich werde dir die Daten nicht geben, du gibst an, du wirst es selbst herausfinden... Version 20 vielleicht werde ich wieder schauen, wenn die "Werbung" wie heute sein wird)))
Nun, vielleicht hatte ich einfach eine andere Vorstellung von der Bedeutung des Wortes "Interaktion".
Für die Behandlung von Wechselwirkungen in linearen Modellen gibt es klare Regeln. Sie sind ein wenig komplizierter als die lineare Kombinationsbehandlung:https://www.r-bloggers.com/interpreting-interaction-coefficient-in-r-part1-lm/
Aber man muss sich durch eine Vielzahl von Kombinationen wühlen, um sinnvolle Interaktionen zu finden. Das ist eine Peinlichkeit.
Ist Ihnen bewusst, dass mehrere Optimierungen immer zu unterschiedlichen Ergebnissen führen? Es ist die Optimierung, wenn es immer das gleiche Ergebnis geben würde, wäre es gut, aber es ist zu seltsam, versuchen Sie, mehrere Male zu optimieren, ich bin sicher, dass Sie Ihre 100% für 8 von 10 mal bekommen. So ist es wie diese....
Er weiß nicht einmal, dass die allgemeine Stichprobe vor dem Training nach dem Zufallsprinzip in Teile aufgeteilt wird: Einige Muster gehen in den Trainingsteil, andere in den Testteil. Und bei einer solchen Aufschlüsselung kann sich durchaus herausstellen, dass einige Muster, die zur Klärung der Muster notwendig sind, im Testteil überfüllt und im Trainingsteil nicht vertreten sind. Und da der Algorithmus nur auf dem Trainingsteil trainiert und keine telepathischen Fähigkeiten hat, um herauszufinden, was im Testteil steht, werden bei der Berechnung der Generalisierungsfähigkeit Fehler auftreten. Das heißt, es passiert nichts Überraschendes.
Wenn aber die Muster, die die Muster bestimmen sollen, gleichmäßig über verschiedene Teile der Stichprobe verteilt sind, ist die Lernfähigkeit höher als im oben beschriebenen Fall.
Mit anderen Worten: Es handelt sich um eine Einzelfallbetrachtung, und jede Zufälligkeit kann früher oder später ihre unerwünschten Seiten zeigen.
Es ist durchaus möglich, dass man eine Methode findet, bei der die allgemeine Stichprobe nicht zufällig, sondern deterministisch aufgeteilt wird? Die bisherige Erfahrung hat jedoch gezeigt, dass jeder Determinismus bei der Aufteilung von Stichproben mit Anpassungen und anschließendem Überlernen verbunden ist.
Es könnte durchaus möglich sein, eine Methode zu finden, mit der die allgemeine Stichprobe nicht nach dem Zufallsprinzip, sondern deterministisch aufgeteilt wird. Die bisherige Erfahrung hat jedoch gezeigt, dass jeglicher Determinismus bei der Aufteilung einer Stichprobe mit Anpassungen und späteren Umschulungen verbunden ist.
Vielleicht müssen Sie das Training mehrmals durchführen und die Stichprobe jedes Mal zufällig aufteilen? Und schon kann man aus diesem fertigen Satz von trainierten Modellen auswählen und allgemein beurteilen, wie gut das Modell ist.
Dies ist in jPrediction bereits implementiert, d.h. es werden mehrere unterschiedliche Probenpartitionen parallel auf verschiedenen CPU-Kernen berechnet (zwei binäre Klassifikatoren sind ein Kern pro freiem Kern). Der Prozessor ist zu 100 % ausgelastet. Das Problem ist, dass die Anzahl der Kerne in der CPU begrenzt ist, so dass die Wahrscheinlichkeit einer ungleichmäßigen Musterverteilung nur verringert werden kann, es aber sehr problematisch ist, sie zu minimieren. Es sei denn, Sie trainieren Muster auf Supercomputern und nicht auf PCs.
Der chinesische Supercomputer Tianhe-2 zum Beispiel hat 3 120 000 Rechenkerne, um Muster zu berechnen. Die Wahrscheinlichkeit einer ungleichmäßigen Verteilung der Muster über Teile der Stichprobe wäre vernachlässigbar. Wenn wir Muster auf einem 4-Kern-System berechnen (plus ein paar Kerne, die für andere Aufgaben reserviert sind), ist es nicht überraschend, dass wir früher oder später auf Unregelmäßigkeiten stoßen.
Dies ist in jPrediction bereits implementiert, d.h. es werden mehrere unterschiedliche Probenpartitionen parallel auf verschiedenen CPU-Kernen berechnet (zwei binäre Klassifikatoren sind ein Kern pro freiem Kern). Der Prozessor ist zu 100 % ausgelastet. Das Problem ist, dass die Anzahl der Kerne in der CPU begrenzt ist, so dass die Wahrscheinlichkeit einer ungleichmäßigen Musterverteilung nur verringert werden kann, es aber sehr problematisch ist, sie zu minimieren. Es sei denn, Sie trainieren Muster auf Supercomputern und nicht auf PCs.
Der chinesische Supercomputer Tianhe-2 zum Beispiel hat 3 120 000 Rechenkerne, um Muster zu berechnen. Die Wahrscheinlichkeit einer ungleichmäßigen Verteilung der Muster über Teile der Stichprobe wäre vernachlässigbar. Wenn Sie Muster auf einem 4-Kern-System berechnen (und ein paar Kerne für andere Aufgaben reservieren), ist es nicht überraschend, dass Sie früher oder später auf Unregelmäßigkeiten stoßen werden.
Ich meine, es ist eine nützliche Sache, das zu tun. Anstelle von 4 Partitionen, die offensichtlich nicht ausreichen, sollten Sie also 40 Partitionen einrichten. Bei 4 Kernen würde die Zählung 10 Mal länger dauern, aber ich nehme an, dass Zeit zugunsten der Robustheit geopfert werden kann.
"Wenn es möglich ist und wenn es etwas nützt, sollte es getan werden. (c) Papo Carlo Albertovich.