Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 655

 
Dr. Trader:

Darüber habe ich auch schon oft nachgedacht.

Wenn das Regressionsmodell Kursgewinne pro Balken vorhersagt und der R2-Wert bei Fronttests und Backtests über Null liegt, ist das bereits ein guter Anfang. Das Problem ist, dass das Ergebnis zwar stabil, aber klein ist und die Spanne nicht übertroffen werden kann.

Analytisch gesehen besteht das Problem darin, dass R2 das Modell bei großen Fehlern stärker bestraft und kleine Fehler und falsche Handelsrichtungen ignoriert. Betrachtet man die Verteilung der Kursgewinne, so liegen die meisten Kursbewegungen nur bei ein paar Pips. Und das Modell lernt, anstatt die richtige Richtung solcher kleinen Bewegungen vorherzusagen, die langen Schwänze der Verteilung vorherzusagen, für die es ein höheres R2 erhält. Infolgedessen kann das Modell große Bewegungen einigermaßen vorhersagen, aber bei kleinen Bewegungen macht es immer einen Fehler in der Richtung und verliert den Spread.

Schlussfolgerung: Die Standardregressionsschätzungen für den Devisenhandel sind schlecht. Es ist notwendig, eine Art Fitnessfunktion zu erstellen, so dass beide Richtungen des Handels sowie die Streuung und die Genauigkeit berücksichtigt werden. Dann besteht selbst bei einer Genauigkeit von etwas mehr als 50 % eine Chance auf Gewinn.
Genauigkeit, Schärfeverhältnis, Wiederherstellungsfaktor und andere Funktionen, die Handelsdiagramme analysieren, sind zu diskret, Neuronen mit einem Standard-Backprop kommen nicht aus dem lokalen Minimum heraus und können nicht richtig lernen.

Eine alternative Schlussfolgerung wäre, schwache Signale des Neurons vollständig zu ignorieren. Handeln Sie nur mit starken Titeln. Das Problem ist, dass wir immer einen Schwellenwert festlegen können, der beim Backtest gute Ergebnisse liefert, beim Fronttest aber nicht. Auch hier müssen wir uns etwas einfallen lassen.

Dennoch erscheint die Idee, Regressionsmodelle für maschinelles Lernen zu verwenden, höchst fragwürdig. Dies gilt insbesondere für die inkrementelle Vorhersage. Und das gilt erst recht für die NS, die im Grunde eine Black Box mit einigen Schichten und Perseptronen sind. Welche wirtschaftliche oder statistische Bedeutung haben diese Begriffe?

Schließlich werden nicht umsonst GARCH-Modelle für Inkremente verwendet, und sie sind derzeit die am häufigsten verwendeten. Der Grundgedanke der Überwindung der Nicht-Stationarität durch Zerlegung nicht-stationärer Reihen in Komponenten, die wirtschaftlich und statistisch durchaus sinnvoll sind, ist sehr attraktiv.


Bei GARCH besteht das Modell aus den folgenden Schritten:

  • Die ursprüngliche Reihe wird durch Logarithmierung (zur Verringerung der Auswirkungen von Ausreißern) des Verhältnisses der benachbarten Balken umgelenkt.
  • da man in der Regel die Nicht-Stationarität nicht vollständig loswerden kann, dann
  • den verbleibenden Trend modellieren (ARIMA)
  • Modellnuancen von ARCH
  • die Verteilung der Inkremente modellieren.

Alles sinnvolle und bedeutungsvolle Arbeit.

Fügt man die Möglichkeit hinzu, externe Regressoren hinzuzufügen, erhält man ein recht umfangreiches Instrument, das leider sehr vielfältig und daher arbeitsintensiv ist.

 
ARIMA+GARCH Trading Strategy on the S&P500 Stock Market Index Using R | QuantStart
ARIMA+GARCH Trading Strategy on the S&P500 Stock Market Index Using R | QuantStart
  • www.quantstart.com
In this article I want to show you how to apply all of the knowledge gained in the previous time series analysis posts to a trading strategy on the S&P500 US stock market index. We will see that by combining the ARIMA and GARCH models we can significantly outperform a "Buy-and-Hold" approach over the long term. Strategy Overview The idea of the...
 
SanSanych Fomenko:

  • Die ursprüngliche Reihe wird durch den Logarithmus(der den Einfluss der Emissionen verringert) des Verhältnisses der benachbarten Balken verzerrt.

Auf welcher Grundlage?

 
SanSanych Fomenko:

Dennoch erscheint die Idee, Regressionsmodelle für maschinelles Lernen zu verwenden, höchst fragwürdig. Dies gilt insbesondere für die inkrementelle Vorhersage. Und das gilt erst recht für NS, die im Sinne einer Black Box mit einigen Schichten und Perseptronen sind. Welche wirtschaftliche oder statistische Bedeutung haben diese Begriffe?

Schließlich werden nicht umsonst GARCH-Modelle für Inkremente verwendet, und sie sind derzeit die am häufigsten verwendeten. Der Grundgedanke, die Nicht-Stationarität durch die Zerlegung einer nicht-stationären Reihe in Komponenten zu überwinden , die eine recht aussagekräftige wirtschaftliche und statistische Bedeutung haben, ist sehr ansprechend.

Sie irren sich, SanSanych. NS ist sozusagen das Äquivalent zur Fuzzy-Logik. Lernbar. Ich persönlich kann daran nichts Geheimnisvolles erkennen. Sie können auch andere Analogien verwenden.

Nun, und Nicht-Stationarität. Jeder Prozess wird, wenn er in Teile zerlegt wird, nicht stationär sein, und wenn er es nicht ist, wird er nicht zufällig sein.

Übrigens, wenn ich mir die Verteilungen über verschiedene lange Zeiträume (mehrere über 3 Monate) ansehe, habe ich keinen signifikanten Unterschied zwischen den beiden festgestellt.

Was den wirtschaftlichen Sinn angeht - nun, ich weiß es nicht. Ich gehe davon aus, dass der Markt für den Beobachter zufällig ist. Ob es tatsächlich zufällig ist oder nicht, spielt keine Rolle. Das Schlüsselwort ist hier für den Beobachter.

 

Sie sind ein interessanter Mann! Es stellt sich heraus, dass Sie alles wissen!

 
Maxim Dmitrievsky:

Auf welcher Grundlage?

Ich habe ein Protokoll, was macht das für einen Unterschied?

 
SanSanych Fomenko:

Ich habe ein Protokoll, was macht das für einen Unterschied?

Denn der Logarithmus beseitigt in diesem Fall keine Ausreißer: Die Berechnung von Inkrementen mit n-lag beseitigt Ausreißer.

der Logarithmus zentriert den Graphen einfach in Bezug auf 0

und um Ausreißer durch Logarithmus zu beseitigen, muss man eine logarithmische Skala einführen.

einfache Inkremente

Logarithmus der Inkremente (natürlich)


 
Maxim Dmitrievsky:

weil der Logarithmus in diesem Fall keine Ausreißer vermeidet: die Berechnung von Inkrementen mit n-lag vermeidet Ausreißer

Der Logarithmus zentriert den Graphen einfach in Bezug auf 0.

und um Ausreißer durch Logarithmus zu beseitigen, muss eine logarithmische Skala eingeführt werden

einfache Inkremente

Logarithmus der Inkremente (natürlich).


Emissionen sind eine heikle Sache. Zu hohe Emissionen werden am besten durch einen akzeptableren Höchstwert ersetzt.

Es ist nicht möglich, die Emissionen vollständig zu beseitigen. Aber um ihre Auswirkungen auf die Verteilung zu minimieren, kann und sollte nicht nur mit dem Logarithmus gearbeitet werden.

> summary(diff(eur))
     Index                       diff(eur)         
 Min.   :2016-01-04 00:00:00   Min.   :-0.0230100  
 1 st Qu.:2016-04-14 19:00:00   1 st Qu.:-0.0005300  
 Median :2016-07-27 12:00:00   Median : 0.0000100  
 Mean   :2016-07-27 12:01:14   Mean   :-0.0000036  
 3 rd Qu.:2016-11-08 06:00:00   3 rd Qu.: 0.0005200  
 Max.   :2017-02-17 23:00:00   Max.   : 0.0143400  


> summary((diff(eur, log=T)))
     Index                     (diff(eur, log = T))
 Min.   :2016-01-04 00:00:00   Min.   :-0.0206443  
 1st Qu.:2016-04-14 19:00:00   1st Qu.:-0.0004810  
 Median :2016-07-27 12:00:00   Median : 0.0000090  
 Mean   :2016-07-27 12:01:14   Mean   :-0.0000034  
 3rd Qu.:2016-11-08 06:00:00   3rd Qu.: 0.0004755  
 Max.   :2017-02-17 23:00:00   Max.   : 0.0127862  
                               NA's   :1


Nehmen wir einen hypothetischen Fall mit nebeneinander liegenden Anführungszeichen 10 und 2

10/2 = 5

log (10/2) = 0,69

 
Maxim Dmitrievsky:

Denn der Logarithmus vermeidet in diesem Fall keine Ausreißer: Die Berechnung der Inkremente mit n-lag vermeidet Ausreißer.



n-lag ist ein Anstieg der TF, und je größer die TF, desto größer der Zuwachs.

Ihre Verzögerung 50 ist H8, nur genauer in dem Sinne, dass Ihre TF=8 Stunden beginnt jede Minute im Gegensatz zu normalen Chart.

 
SanSanych Fomenko:

Emissionen sind eine heikle Sache. Es ist besser, zu hohe Emissionen insgesamt durch einen akzeptableren Höchstwert zu ersetzen.

Es ist nicht möglich, die Emissionen vollständig zu beseitigen. Aber es ist nicht nur möglich, sondern auch notwendig, ihren Einfluss auf die Verteilung zu reduzieren, und das geschieht durch Logarithmierung.



Nehmen wir einen hypothetischen Fall mit nebeneinander liegenden Anführungszeichen 10 und 2

10/2 = 5

log (10/2) = 0,69

gut, Sie haben die Potenz von e gefunden, um den Wert des anfänglichen Inkrements zu erhalten

aber Sie haben die Ausreißer nicht beseitigt.

Ich habe oben 2 Bilder zitiert