Diskussion zum Artikel "Neuronale Netze leicht gemacht (Teil 48): Methoden zur Verringerung der Überschätzung von Q-Funktionswerten"

 

Neuer Artikel Neuronale Netze leicht gemacht (Teil 48): Methoden zur Verringerung der Überschätzung von Q-Funktionswerten :

Im vorigen Artikel haben wir die DDPG-Methode vorgestellt, mit der Modelle in einem kontinuierlichen Aktionsraum trainiert werden können. Wie andere Q-Learning-Methoden neigt jedoch auch DDPG dazu, die Werte der Q-Funktion zu überschätzen. Dieses Problem führt häufig dazu, dass ein Agent mit einer suboptimalen Strategie ausgebildet wird. In diesem Artikel werden wir uns einige Ansätze zur Überwindung des genannten Problems ansehen.

Das Problem der Überschätzung der Q-Funktionswerte tritt beim Training verschiedener Modelle mit der DQN-Methode und ihren Ableitungen häufig auf. Sie ist sowohl für Modelle mit diskreten Aktionen als auch für die Lösung von Problemen in einem kontinuierlichen Raum von Aktionen charakteristisch. Die Ursachen dieses Phänomens und die Methoden zur Bekämpfung seiner Folgen können in jedem einzelnen Fall spezifisch sein. Daher ist ein integrierter Ansatz zur Lösung dieses Problems wichtig. Ein solcher Ansatz wurde in dem im Februar 2018 veröffentlichten Artikel „Addressing Function Approximation Error in Actor-Critic Methods“ vorgestellt. Es wird ein Algorithmus mit der Bezeichnung Twin Delayed Deep Deterministic policy gradient (TD3) vorgeschlagen. Der Algorithmus ist eine logische Fortsetzung von DDPG und führt einige Verbesserungen ein, die die Qualität der Modellschulung erhöhen.

Zunächst fügen die Autoren einen zweiten Critic (Kritiker) hinzu. Die Idee ist nicht neu und wurde bereits für diskrete Aktionsraummodelle verwendet. Die Autoren der Methode haben jedoch ihr Verständnis, ihre Vision und ihren Ansatz für die Verwendung des zweiten Critics eingebracht.

Die Idee ist, dass beide Critic mit zufälligen Parametern initialisiert und parallel mit denselben Daten trainiert werden. Sie werden mit unterschiedlichen Anfangsparametern initialisiert und beginnen ihr Training in unterschiedlichen Zuständen. Aber beide Critics sind auf die gleichen Daten trainiert, daher sollten sie sich auf das gleiche (wünschenswerte globale) Minimum zubewegen. Es ist ganz natürlich, dass die Ergebnisse ihrer Prognosen während des Trainings konvergieren. Sie werden jedoch aufgrund des Einflusses verschiedener Faktoren nicht identisch sein. Bei jedem von ihnen besteht das Problem der Überschätzung der Q-Funktion. Aber zu einem bestimmten Zeitpunkt wird ein Modell die Q-Funktion überbewerten, während das zweite sie unterbewerten wird. Selbst wenn beide Modelle die Q-Funktion überbewerten, ist der Fehler des einen Modells geringer als der des zweiten. Auf der Grundlage dieser Annahmen schlagen die Autoren der Methode vor, die minimale Vorhersage zu verwenden, um beide Critics zu trainieren. Auf diese Weise minimieren wir die Auswirkungen einer Überschätzung der Q-Funktion und die Ansammlung von Fehlern während des Lernprozesses.

Gehen wir nun zum Training und zum Testen der erzielten Ergebnisse über. Wie üblich wurden die Modelle auf historischen Daten von EURUSD H1 von Januar bis Mai 2023 trainiert. Die Indikatorparameter und alle Hyperparameter wurden auf ihre Standardwerte gesetzt.

Das Training war ziemlich langwierig und iterativ. In der ersten Phase wurde eine Datenbank mit 200 Trajektorien erstellt. Für den ersten Trainingsprozess wurden 1.000.000 Iterationen durchgeführt. Die Politik des Actors wurde einmal nach jeweils 10 Iterationen der Aktualisierung der Parameter für die Critic aktualisiert. Eine sanfte Aktualisierung der Zielmodelle wurde nach jeweils 1.000 Iterationen der Aktualisierung des Critics durchgeführt.


Danach wurden der Beispieldatenbank weitere 50 Trajektorien hinzugefügt, und die zweite Stufe des Modelltrainings wurde eingeleitet. Gleichzeitig wurde die Anzahl der Iterationen vor der Aktualisierung des Actors- und des Zielmodells auf 3 bzw. 100 reduziert.

Nach etwa 5 Trainingszyklen (bei jedem Zyklus wurden 50 Trajektorien hinzugefügt) entstand ein Modell, das in der Lage war, auf Basis der Trainingsdaten Gewinne zu erzielen. Nach 5 Monaten der Trainingsstichprobe konnte das Modell, fast 10 % des Einkommens generieren. Dies ist nicht das beste Ergebnis. Es wurden 58 Transaktionen durchgeführt. Der Anteil der gewinnbringenden Transaktionen lag bei mageren 40 %. Gewinnfaktor - 1,05, Erholungsfaktor - 1,50. Der Gewinn wurde aufgrund der Größe der profitablen Positionen erzielt. Der durchschnittliche Gewinn aus einem Handel beträgt das 1,6-fache des durchschnittlichen Verlustes. Der maximale Gewinn beträgt das 3,5-fache des maximalen Verlustes aus einer Handelsoperation.


Autor: Dmitriy Gizlyk