Diskussion zum Artikel "Neuronale Netze leicht gemacht (Teil 35): Modul für intrinsische Neugier"

 

Neuer Artikel Neuronale Netze leicht gemacht (Teil 35): Modul für intrinsische Neugier :

Wir untersuchen weiterhin Algorithmen für das verstärkte Lernen. Alle bisher betrachteten Algorithmen erfordern die Erstellung einer Belohnungspolitik, die es dem Agenten ermöglicht, jede seiner Aktionen bei jedem Übergang von einem Systemzustand in einen anderen zu bewerten. Dieser Ansatz ist jedoch ziemlich künstlich. In der Praxis gibt es eine gewisse Zeitspanne zwischen einer Handlung und einer Belohnung. In diesem Artikel werden wir einen Algorithmus zum Trainieren eines Modells kennenlernen, der mit verschiedenen Zeitverzögerungen zwischen Aktion und Belohnung arbeiten kann.

Um den EA zu trainieren, wurden alle Modelle mit NetCreator erstellt. Es sollte hinzugefügt werden, dass sich die Modelldateien im gemeinsamen Terminalverzeichnis „Terminal\Common\Files“ befinden müssen, um den EA-Betrieb im Strategietester zu ermöglichen, da jeder Agent in seiner eigenen Sandbox arbeitet, sodass sie Daten nur über den gemeinsamen Terminalordner austauschen können.

Das Training mit dem Strategietester dauert etwas länger als das bisherige virtuelle Training. Aus diesem Grund habe ich den Trainingszeitraum des Modells auf 10 Monate reduziert. Die übrigen Prüfparameter blieben unverändert. Auch hier habe ich EURUSD auf dem H1-Zeitrahmen verwendet. Die Indikatoren wurden mit Standardparametern verwendet.

Um ehrlich zu sein, hatte ich erwartet, dass der Lernprozess mit dem Verlust der Einlage beginnen würde. Beim ersten Durchgang zeigte das Modell jedoch ein Ergebnis nahe 0 an. Im zweiten Durchgang wurde dann sogar ein Gewinn erzielt. Das Modell führte 330 Transaktionen durch, wobei mehr als 98 % der Positionen gewinnbringend waren.

Ergebnisse der Modellprüfung Ergebnisse der Modellversuche

Autor: Dmitriy Gizlyk