Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 883

 
Maxim Dmitrievsky:

reguläre Wälder, Zufallswälder und Baumwälder sind das Gleiche :) Wald ist ein Ensemble von Bäumen

Sind die Merkmale kollabiert, d. h. es gibt weniger von ihnen oder was? Mit kollabierten Merkmalen meinen wir selten wechselnde und/oder kategorische Merkmale wie Einsen und Nullen (das ist ein Verständnis auf hohem Niveau)

Nein, kollabiert bedeutet, dass eine Variable viele Werte hat, aber die Anzahl der Kombinationen gleich bleibt. Ich habe eine Datei beigefügt, die der vom letzten Jahr ähnelt, aber in einer anderen Darstellung.

Dateien:
 
Eidechse_:

Durch die Binarisierung gehen viele nützliche Informationen verloren.

Was macht es für einen Unterschied, wie die Informationen präsentiert werden, es ändert sich nichts ...? ???

 
Maxim Dmitrievsky:

Ich habe nichts gegen SanSanych persönlich, er ist ein sehr kompetenter und diskreter Mann, der etwas eigenes, ihm unbekanntes tut, er braucht wahrscheinlich R

Intuitiv bevorzuge ich Python, obwohl ich nichts Besonderes erfunden habe, um es zum "Wow" zu machen, aber ich studiere es in aller Ruhe weiter und schaue, ob es hilft :D

R ist eine wunderbare Umgebung, die viele Vorteile gegenüber Python hat. Am wichtigsten ist, dass R eine Modellierungsumgebung ist. Im Vergleich zu Python können Sie in R schneller und einfacher Ergebnisse erzielen.

Es ist klar, dass Python in Kombination mit Modulen seine eigenen Vorteile hat.

Übrigens, für RF scheint es, dass wir hier wie auch bei NS auf die bewährte Auswahl von Prädiktoren verzichten und direkt normalisierte BP als solche verwenden können.

 
SanSanych Fomenko:

Normal Forest oder Random Forest, oder beides?

Führen Sie in rattle die beiden Waldmodelle namens tree und ada aus. Öffnen Sie die Registerkarte "Log" und sehen Sie den R-Code, Verweise auf die verwendeten Pakete und Sie können ihre Unterschiede verstehen.

Ich verstehe den Unterschied zwischen Baum und Scaffolding (oder ich glaube, ich tue) Scaffolding ist besser zu verwenden, wenn es mehr Unsicherheit in den Daten, dh eine weniger stabile Muster, da Scaffolding macht Entscheidungen durch Abstimmung, die auf zufällige (unabhängig durch Verkürzung) Bäume auftritt, oder bin ich falsch? Und die Option "adad" habe ich nicht, sie ist nicht auf dem Screenshot, es gibt "Forest" - nicht wahr?

SanSanychFomenko:

Ich habe Rattle und R (gut, und Glitches all dieses Zeug ...),

Ich verstehe nicht , was Glitches, lief in letzter Zeit eine große Anzahl von Modellen - alle normal

Ich hatte einige Probleme mit dem Herunterladen von Paketen - er sagt, dass er begonnen hat, aber er lädt sie nicht herunter, dann legt er sie ab und sagt, dass er die benötigten Bibliotheken nicht hat, dann bleibt er hängen, wenn er Daten aus einer Datei liest... Nun, der Arbeitsprozess ist nicht sichtbar - es ist nicht klar, wie lange man auf die Fertigstellung warten muss. Bisher habe ich von solchen Fehlern gesprochen. Einmal eine Aufgabe aus dem Dispatcher entfernt...

SanSanych Fomenko:


Das Bild von rattle, haben Sie unvollendet. Zumindest müssen Sie zur nächsten Registerkarte wechseln und dort die Ergebnisse sehen.

Das Wichtigste ist jedoch, die Quelldatei in zwei Teile mit unterschiedlichen Namen aufzuteilen (höchstwahrscheinlich müssen Sie dies in R tun).

Erstellen Sie in der ersten Datei alle sechs Modelle und prüfen Sie deren Schätzungstest. Geben Sie dann den Namen der zweiten Datei in das Feld R Dataset ein. Und darauf bekommt man wieder Noten. Alle Schätzungen müssen ungefähr gleich sein!

Wenn diese Schätzungen nicht übereinstimmen und die zweite Datei schlechtere Ergebnisse der Modelle zeigt, dann bedeutet dies, dass die Modelle übertrainiert sind und der Grund dafür Rauschprädiktoren sind (die nicht mit der Zielvariablen in Verbindung stehen).


Dies ist der Moment der Wahrheit: Entweder man hat eine Reihe von Prädiktoren, die für eine bestimmte Zielvariable relevant sind, oder man hat sie nicht. Und kein Modell kann diesen unglücklichen Umstand beheben. Dann beginnt die dumme Arbeit der Auswahl eines Paares von "Ziel-Prädiktoren", Modelle sind überhaupt nicht interessant, finden Sie ein Paar, dann sind Modelle nur Samen in R, Sie werden ein Dutzend von ihnen in einem Tag finden und machen Ensembles von ihnen.

Wie schneidet man also eine Datei mit R aus, muss man einen speziellen Algorithmus verwenden? Es ist interessant zu sehen, was am Ende passiert.

 
SanSanych Fomenko:


2. Kein Problem mit R EA: alles funktioniert und ist sehr stabil.

Funktioniert es auch für MT5? Wo kann ich Beispiele für Code finden? Ich denke, es wäre besser, Indikator verwenden, um Informationen zu senden, da in Optimierer wird es einfacher sein, sie zu vergleichen, wenn die Verbindung zu EA und visuell zeigen, was Wald denkt über Marktsituation zu einem bestimmten Zeitpunkt.

 
Yuriy Asaulenko:

R ist eine wunderbare Umgebung, die viele Vorteile gegenüber Python bietet. Der wichtigste ist, dass R eine Modellierungsumgebung ist. Im Vergleich zu Python lassen sich in R schneller und einfacher Ergebnisse erzielen.

Es ist klar, dass Python in Kombination mit Modulen seine eigenen Vorteile hat.

Was übrigens RF betrifft, so scheint es hier, wie auch bei NS, möglich zu sein, auf die Auswahl von Prädiktoren zu verzichten und direkt normalisierte BP als solche zu verwenden.

können Sie sogar nicht-normierte

 
Maxim Dmitrievsky:

Das geht auch ohne Rationierung.

Es wird nicht funktionieren. Es muss ein eindeutiger Verweis auf einen bestimmten Wert, z. B. Null, im BP-Abschnitt vorhanden sein.

 
Aleksey Vyazmikin:


Ich verstehe den Unterschied zwischen Bäumen und Wäldern (oder ich glaube, ich tue es), Wälder sind besser zu verwenden, wenn es mehr Unsicherheit in den Daten gibt, d.h. ein weniger stabiles Muster, da Wälder Entscheidungen durch Abstimmung treffen, was durch zufällige (unabhängige aufgrund der Verkürzung) Bäume getan wird, oder liege ich falsch?

Ich weiß es nicht, ich urteile nach den Ergebnissen.

Und die Option "adad" habe ich nicht, sie ist nicht auf dem Screenshot, es gibt "Forest" - das ist es nicht?

Der Reihe nach:


Baum

Das Paket 'rpart' stellt die Funktion'rpart' zur Verfügung.


Boost

# Extreme Boost

# Das Paket "xgboost" implementiert den Extreme-Gradient-Boost-Algorithmus.


SVM

# Support-Vektor-Maschine.

# Das Paket 'kernlab' bietet die Funktion 'ksvm'.


Linear

# Regressionsmodell

# Erstellen Sie ein Regressionsmodell.


Neuronales Netz

# Neuronales Netzwerk

# Erstellen Sie ein neuronales Netzwerkmodell mit dem Paket nnet.

library(nnet, quietly=TRUE)


Übrigens habe ich diese Arbeit für Sie erledigt - Sie können sich das alles in Log selbst ansehen. Wenn Sie eine andere Version von rattle haben, kann die Liste anders aussehen.


Wie kann man also eine Datei mit R ausschneiden, wenn man einen speziellen Algorithmus verwendet? Man darf gespannt sein, wie das Ergebnis ausfallen wird.

Zum Beispiel nach Index: [1:2000,], [2001:4000,]. Es ist wichtig, dass die natürliche Zeitfolge in der zweiten Datei nicht unterbrochen wird.

 
Aleksey Vyazmikin:

Funktioniert es auch für MT5? Wo kann ich Beispiele für Code finden? Ich denke, es wäre besser, Informationen nach Indikatoren bereitzustellen, weil der Optimierer sie leicht vergleichen kann, wenn er sich mit dem EA verbindet, und visuell sieht, was der Wald über die Marktsituation zu einem bestimmten Zeitpunkt denkt.

Die Bibliothek wurde auf meinen Wunsch hin geändert - ich brauchte einen Tester von MT5. Ich habe es nachgerechnet, bin aber zu faul, um es zu suchen, vielleicht habe ich es ja bereinigt.

Sehen Sie sich die Artikelvon Vladimir Perervenko an

Wenn Sie an Netzwerken interessiert sind, ist er der neueste in diesem Bereich, R, Berater, der Mann ist auf der Website verfügbar
 
Aleksey Vyazmikin:

Nein, kollabiert, das heißt, eine Variable hat viele Werte, aber die Anzahl der Kombinationen bleibt gleich. Ich habe eine ähnliche Datei wie die letzte zum Einkaufen beigefügt, allerdings in einer anderen Darstellung.

Probieren Sie es aus, wie Sie wollen :) Die Hauptsache ist, nicht zu vergessen, die Theorie zu lesen, die nicht etwas dumm tun würde, und das Paket, das Sie brauchen, ist nicht schwer, sie sind voll von ihnen, und sogar online - Sie brauchen nicht, etwas zu installieren. Datasens hat Hochkonjunktur, "es" ist überall

Ich habe keine Zeit, die Archive zu analysieren, ich arbeite an meinen eigenen Sachen.