Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 645

 
SanSanych Fomenko:

Es macht keinen Sinn, Tests mit dem Originalzitat durchzuführen, da es für das Auge offensichtlich ist, dass die Reihe nicht stationär ist.

Interessant (nicht für mich - ich benutze es immer) sind auch die Graphen für die Zeitreihe log(p/p-1).

Was ist da drin? Und natürlich brauchen Sie eine Skala auf der Ordinatenachse.

Um Platz zu sparen, habe ich keine Skalierung verwendet, damit zwei Diagramme in einen Rahmen passen, aber die Y-Koordinaten waren ursprünglich unterschiedlich.

Das Ergebnis ist völlig anders als beim letzten Mal, hier sind die interessantesten Diagramme, der Rest ist im Archiv, so dass ich hier nicht 10 Bilder einfügen muss. Aber das Entropie-Diagramm ist überhaupt nicht interessant.

Atacha-Skript, in R-Studio können Sie in der Historie aller Plots vor- und zurückblättern

Ups, wieder ein Tippfehler im Code, habe die .txt-Datei wieder angehängt

 
SanSanych Fomenko:


Sie haben die wichtigsten Komponenten besprochen und den Nachteil eines Algorithmus ohne Lehrer erkannt.

Hier ist es mit dem Lehrer:

Paket spls.

Danke, nach der Beschreibung in cran wäre ich nicht einmal auf die Idee gekommen (Sparse Partial Least Squares (SPLS) Regression and Classification)

 
Dr. Trader:

Um Platz zu sparen, habe ich die Skalierung nicht verwendet, um zwei Diagramme in einem Rahmen unterzubringen, aber ihre Y-Koordinaten waren ursprünglich unterschiedlich.

Das Ergebnis ist ganz anders als beim letzten Mal, hier sind die interessantesten Diagramme, der Rest befindet sich im Archiv, um hier nicht 10 Bilder unterzubringen. Aber das Entropie-Diagramm ist überhaupt nicht interessant.

Atacha-Skript, in R-Studio können Sie in der Historie aller Plots vor- und zurückblättern

Ups, wieder ein Tippfehler im Code, habe die .txt-Datei wieder angehängt.

Tolle Bilder!

Anhand des Bogen-Tests kann man erkennen, dass es Flächen gibt, auf denen Arima-Modelle funktionieren. Aber es gibt immer ein Problem: Wir sind alle sehr schlau in Geschichte und wir lernen, dass wir arima erst benutzen können, wenn wir es bestanden haben! Und so ist es mit all unseren Theorien: starke Rückschau.

 
Dr. Trader:

Um dies weiter zu verfolgen -https://www.mql5.com/ru/forum/86386/page643#comment_6472393


Die Funktion zur Sichtung von Prädiktoren random.forest.importance() zeigte bei einigen Tests recht ordentliche Ergebnisse. Es ist ungünstig, dass seiner Meinung nach alle Prädiktoren zumindest einigermaßen wichtig sind... Aber wenn wir zum Beispiel die durchschnittliche Wichtigkeit berechnen und nur die Prädiktoren nehmen, die überdurchschnittlich wichtig sind, erhalten wir sehr gute Ergebnisse.

Welche Bedeutung hat sie? Gini oder Permutation (MDA)

P.s. Es gibt noch andere Methoden, die Sie zum Vergleich verwenden können http://blog.datadive.net/selecting-good-features-part-iv-stability-selection-rfe-and-everything-side-by-side/

Selecting good features – Part IV: stability selection, RFE and everything side by side
  • 2014.12.20
  • blog.datadive.net
In this post, I’ll look at two other methods: stability selection and recursive feature elimination (RFE), which can both considered wrapper methods. They both build on top of other (model based) selection methods such as regression or SVM, building models on different subsets of data and extracting the ranking from the aggregates. As a wrap-up...
 
Dr. Trader:

Ich habe ein weiteres interessantes Paket zum Herausfiltern von Prädiktoren gefunden. Er wird FSelector genannt. Es bietet etwa ein Dutzend Methoden zum Herausfiltern von Prädiktoren, einschließlich Entropie.

Ich habe die Datei mit den Prädiktoren und dem Ziel vonhttps://www.mql5.com/ru/forum/86386/page6#comment_2534058.


Die Bewertung des Prädiktors nach jeder Methode habe ich in der Grafik am Ende dargestellt.

Blau ist gut, rot ist schlecht (für Corrplot wurden die Ergebnisse auf [-1:1] skaliert, für eine genaue Schätzung siehe Ergebnisse der Aufrufe von cfs(targetFormula, trainTable), chi.squared(targetFormula, trainTable) usw.)
Sie sehen, dass X3, X4, X5, X19, X20 mit fast allen Methoden ausgewertet werden, Sie können mit diesen beginnen und dann versuchen, weitere hinzuzufügen oder zu entfernen.

Die Modelle in Rattle haben jedoch den Test mit diesen 5 Prädiktoren auf Rat_DF2 nicht bestanden, auch hier ist kein Wunder geschehen. D.h. selbst mit den verbleibenden Prädiktoren müssen Sie die Modellparameter anpassen, eine Kreuzvalidierung durchführen und selbst Prädiktoren hinzufügen/entfernen.

FSelector stammt von WEKA, d.h. er verwendet Java. Es verbraucht eine Menge Speicherplatz. Es ist besser, FSelectorRcpp zu verwenden.

Viel Glück!

 

Hier ist mehr Entropie(Preis) und archTest(log(p/p-1)) zur gleichen Zeit. Auf den ersten Blick scheinen sie nicht miteinander zu korrelieren, ich sehe keine Signale. Wer ein Auge für Indikatoren hat, dem fällt vielleicht etwas auf.


 
Maxim Dmitrievsky:

Um welche Bedeutung handelt es sich? Gini oder Permutation (MDA)

Es stehen 2 Typen zur Auswahl -
1=mittlere Abnahme der Genauigkeit (dies ist wahrscheinlich mda, es entspricht den ersten Buchstaben)
2=mittlerer Rückgang der Knotenverunreinigung

 
Dr. Trader:

Es stehen 2 Typen zur Auswahl -
1=Mittelwert der Abnahme der Genauigkeit (das ist wahrscheinlich mda, die ersten Buchstaben passen)
2=mittlerer Rückgang der Knotenverunreinigung

Ja, das ist er, danke, der zweite mdi.

 
Dr. Trader:

Hier ist mehr Entropie(Preis) und archTest(log(p/p-1)) zur gleichen Zeit. Auf den ersten Blick scheinen sie nicht miteinander zu korrelieren, ich sehe keine Signale. Wer ein Auge für Indikatoren hat - dem fällt vielleicht etwas auf.


ein regulärer Volatilitätsindikator stellt sich heraus)

Aber der Bogen-Test zeigt nichts an

 

Wie ich sehe, besteht ein unbestreitbares Interesse daran, die Bedeutung von Prädiktoren zu bewerten.

Das vielfältigste System ist im CORElearn-Paket enthalten (es wurde einstvon Vladimir Perervenko dringend empfohlen)

Es hat mehrere Funktionen zur Auswertung.

Auf der ersten Stufe handelt es sich um eine Funktion:

ordEval(formula, data, file=NULL, rndFile=NULL,
variant=c("allNear","attrDist1","classDist1"), ...)

ordEval вычисляет результирующие вероятностные факторы, соответствующие эффекту увеличение/уменьшение значимости атрибута для класса.
Алгоритм оценивает строго зависимые упорядоченные атрибуты, в которых значения отдельных атрибутов зависят от других атрибутов в разной манере.

In der zweiten Stufe wird die Funktion

attrEval(formula, data, estimator, costMatrix = NULL, ...)

estimator       Имя метода оценки. Ниже 37 имен.

[1]     "ReliefFequalK"      "  ReliefFexpRank" "ReliefFbestK"  "Relief"
[5]     "InfGain"            "GainRatio"        "MDL"            "Gini"
[9]     "MyopicReliefF"      "Accuracy"         "ReliefFmerit"  "ReliefFdistance"
[13]    "ReliefFsqrDistance"    "DKM"           "ReliefFexpC"   "ReliefFavgC"
[17]    "ReliefFpe"          "ReliefFpa"        "ReliefFsmp"    "GainRatioCost"
[21]    "DKMcost"            "ReliefKukar"      "MDLsmp"        "ImpurityEuclid"
[25]    "ImpurityHellinger"     "UniformDKM"    "UniformGini"   "UniformInf"
[29]    "UniformAccuracy"       "EqualDKM"      "EqualGini"     "EqualInf"
[33]    "EqualHellinger"        "DistHellinger" "DistAUC"       "DistAngle"
[37]    "DistEuclid"                     


Дополнительный параметр costMatrix может включить неоднородную матрицу стоимости для классификаций, чувствительных к стоимости мер 
(ReliefFexpC, ReliefFavgC, ReliefFpe, ReliefFpa, ReliefFsmp, GainRatioCost, DKMcost, ReliefKukar и MDLsmp). 



Wie Sie sehen, gibt es viel Spielraum für Übungen zur Bestimmung der Bedeutung der Prädiktoren.