
Sie verpassen Handelsmöglichkeiten:
- Freie Handelsapplikationen
- Über 8.000 Signale zum Kopieren
- Wirtschaftsnachrichten für die Lage an den Finanzmärkte
Registrierung
Einloggen
Sie stimmen der Website-Richtlinie und den Nutzungsbedingungen zu.
Wenn Sie kein Benutzerkonto haben, registrieren Sie sich
Neuer Artikel Neuronale Netze leicht gemacht (Teil 97): Modelle mit MSFformer trainieren :
Bei der Erforschung verschiedener Modellarchitekturen wird dem Prozess des Modelltrainings oft nicht genügend Aufmerksamkeit geschenkt. In diesem Artikel möchte ich diese Lücke schließen.
Der erste Trainingsdatensatz vermittelt dem Modell ein erstes Verständnis der Umgebung. Die Finanzmärkte sind jedoch so vielschichtig, dass kein Trainingssatz sie vollständig abbilden kann. Darüber hinaus können sich die Abhängigkeiten, die das Modell zwischen den analysierten Indikatoren und den profitablen Geschäften erlernt, als falsch oder unvollständig erweisen, da dem Trainingsset möglicherweise Beispiele fehlen, die solche Diskrepanzen aufzeigen. Daher müssen wir während des Trainingsprozesses den Trainingsdatensatz verfeinern. In diesem Stadium wird der Ansatz für die Erhebung zusätzlicher Daten unterschiedlich sein.
Die Aufgabe in dieser Phase besteht darin, die erlernte Politikdes Akteurszu optimieren. Um dies zu erreichen, benötigen wir Daten, die relativ nahe am Verlauf der aktuellen Politik des Akteurs liegen, damit wir die Richtung der Belohnungsänderungen verstehen können, wenn die Aktionen von der aktuellen Politik abweichen. Mit diesen Informationen können wir die Rentabilität der aktuellen Politik erhöhen, indem wir uns in Richtung einer Maximierung der Belohnung bewegen.
Es gibt verschiedene Ansätze, um dies zu erreichen, und sie können sich je nach Faktoren wie der Modellarchitektur ändern. Bei einer stochastischen Strategie können wir zum Beispiel einfach mehrere Durchläufe desAkteursmit der aktuellen Strategie im Strategietester durchführen. Der stochastische Kopf wird dies tun. Die Zufälligkeit der Aktionen des Akteurs deckt den Aktionsraum ab, an dem wir interessiert sind, und wir können das Modell anhand der aktualisierten Daten neu trainieren. Im Falle einer deterministischen Akteurspolitik, bei der das Modell explizite Beziehungen zwischen dem Umweltzustand und der Aktion herstellt, können wir den Aktionen des Agenten etwas Rauschen hinzufügen, um eine Wolke von Aktionen um die aktuelleAkteurspolitikherum zu erzeugen.
In beiden Fällen ist es sinnvoll, den langsamen Optimierungsmodus des Strategietesters zu verwenden, um zusätzliche Daten für den Trainingsdatensatz zu sammeln.
Autor: Dmitriy Gizlyk