Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 2812

 
Maxim Dmitrievsky #:

Es wurde hier vor mehr als einem Jahr diskutiert, als ich RL-Algorithmen schrieb.

Ich möchte noch nicht zurückgehen, und ich auch nicht.
Ich bin nicht von der Position der Etiketten, sondern von der Position z.B. einiger sehr komplexer und detaillierter Strategien des Agentenverhaltens.
 
mytarmailS #:
Ich spreche nicht von der Position der Etiketten, sondern von der Position z.B. einiger sehr komplexer mehrstufiger Strategien für das Verhalten des Agenten
Sie verwechseln das tabellarische RL, bei dem in Tabellen die Richtungen der Übergänge von einem Zustand in einen anderen optimiert werden, das sind Policies. Diese Tabellen wurden später durch neuronale Netze ersetzt. Dies ist der Fall, wenn es viele Zustände des Agenten gibt, z. B. bei Spielen. Sie haben nur 2-3 Kauf-/Verkaufszustände usw. Dann optimiert man die Übergänge zu diesen Zuständen durch eine Belohnungsfunktion, z. B. durch Stichproben von Geschäften mit einer bestimmten Rentabilitätsbedingung, und die Strategien werden durch NS optimiert. Eine Strategie ist die Beziehung zwischen der Umgebung und dem Zustand, in den man übergehen möchte. Zum Beispiel die Beziehung zwischen den Indikatorwerten und der Richtung des Handels.

Es macht keinen Sinn, mehrere 100500 Übergänge durch die Tabelle zu machen, wenn das NS bereits alles approximiert und Ihnen den Fehler Ihrer Aktionen aufgezeigt hat. Dies ist notwendig, wenn Sie erst springen, dann schießen, nachladen, Beute einsammeln, zur anderen Seite laufen usw. müssen. Das bedeutet, dass du viele Aktionen ausführen musst, und du hast nur 2-3. Obwohl der Chef ist der Chef :)

Ich vergaß hinzuzufügen, dass der Agent dort auch die Umgebung beeinflusst, sie verändert und die Umgebung auf den Agenten. Deshalb muss man Tausende von Wiederholungen lernen, um alle Kombinationen durchzugehen. In unserem Fall ist das nicht so, die Umgebung ändert sich nicht, also können wir es in einem Durchgang machen. In einer solchen Umgebung verliert das Verstärkungslernen seine Bedeutung völlig. Sie können den kürzesten Weg zum Ziel in einem Durchgang finden.
 
Das Lösungsschema ist einfach: Der Datensatz wird vorverarbeitet. Die Standardanalyse wird durchgeführt. Vom Rest wird jede Eingabe als Zielvariable und die Ausgabe bei jeder ML als fic genommen. Die Vorhersage jedes Inputs wird bewertet, schlechte "vorhersehbare" werden verworfen. Die Eingaben, die den Filter passieren, werden in das Arbeitsmodell aufgenommen, indem der Output in der ML vorhergesagt wird. Ich würde Chips, die die Vorhersage nicht beeinflussen, auf diese Weise herauswerfen.
 
Maxim Dmitrievsky #:
Dies ist der Fall, wenn es viele Agentenstatus gibt, z. B. bei Spielen. Man hat nur 2-3 Kauf/Verkaufszustände usw.

Nein, das ist so primitiv, sonst würde es gar nicht in diese Richtung gehen.


Zustand ist nicht kaufen/verkaufen, kaufen/verkaufen ist eine Aktion, und Zustand ist grob gesagt die Clusternummer der aktuellen Umgebung, und jeder Zustandscluster hat seine eigene Aktion...

Aber dieAktion muss nicht primitiv sein wie kaufen/verkaufen, sie kann zum Beispiel die Überlegungen des Agenten über die Zukunft sein....

Wenn ich z.B. jetzt bei [i] kaufe und bei Handelskerze[i+1] der Preis fällt, aber nicht unter einen bestimmten Preis, warte ich auf die nächste Kerze [i+2], aber wenn der Preis noch tiefer fällt, mache ich einen Rückzieher, wenn nicht, bleibe ich bei buy[i...20].

Dies sind nicht-triviale Überlegungen über die Zukunft und führen zur Entdeckung des bewussten poziya....

Aber es gibt eine Unzahl solcher Kombinationen von Argumentationsoptionen, und damit wir nicht alle durchgehen müssen, trainieren wir eine Q-Funktion, d.h. der Agent nimmt nur die Optionen zum Argumentieren, die einen guten Q-Wert haben,

Das Q-Neuron oder die Matrix wird vorher trainiert...

So sehe ich das...

 
peregrinus_vik #:
Das Lösungsschema ist einfach.

)))) Ja, sicher...

Ich habe Angst vor denen, die sagen "es ist einfach".

 
mytarmailS #:

Nein, es ist so primitiv, sonst würde es nicht in diese Richtung gehen...


state ist kein by\sel, by\sel ist eine Aktion, und state ist grob gesagt die Clusternummer der aktuellen Umgebung, und jeder Statuscluster hat seine eigene Aktion...

Aber dieAktion muss nicht primitiv wie ein Byte sein, sie kann zum Beispiel ein Gedanke des Agenten über die Zukunft sein....

Wenn ich z.B. jetzt bei [i] kaufe, und bei Handelskerze[i+1] der Preis fällt, aber nicht unter einen bestimmten Preis, werde ich auf die nächste Kerze [i+2] warten, aber wenn der Preis noch tiefer fällt, werde ich umkehren, wenn nicht, werde ich buy[i...20] behalten.

Dies sind nicht-triviale Überlegungen über die Zukunft und führen zur Entdeckung der realisierten Position....

Aber es gibt unzählige solcher Kombinationen von Argumentationsoptionen, und damit wir sie nicht alle durchgehen müssen, trainieren wir die Q-Funktion, d.h. der Agent nimmt nur die Optionen zum Argumentieren, die einen guten Q-Wert haben,

Q-Neuron oder -Matrix wird vorher trainiert...

So sehe ich das...

Ich stimme zu, buy sell no trade ist kein Zustand. Es gibt eine ganze Reihe von Zuständen. ))))))

 
Valeriy Yastremskiy #:

Ich stimme zu, kaufen verkaufen nicht handeln ist nicht Staaten. Es gibt eine ganze Reihe von Staaten. )))))

Es gibt nicht viele Zustände (wenn es ein Cluster ist).

Es gibt eine Vielzahl von Optionen, um über zukünftige Aktionen nachzudenken.

Aber es ist notwendig, die richtigen Handlungen in jedem Zustand zu finden, außerdem sollten sie bei jeder Kerze überprüft werden.

 
mytarmailS #:

Nein, es ist so primitiv, sonst würde es nicht in diese Richtung gehen...


state ist kein by\sel, by\sel ist eine Aktion, und state ist grob gesagt die Clusternummer der aktuellen Umgebung, und jeder Statuscluster hat seine eigene Aktion...

Aber dieAktion muss nicht primitiv wie ein Byte sein, sie kann zum Beispiel ein Gedanke des Agenten über die Zukunft sein....

Wenn ich z.B. jetzt bei [i] kaufe, und bei Handelskerze[i+1] der Preis fällt, aber nicht unter einen bestimmten Preis, werde ich auf die nächste Kerze [i+2] warten, aber wenn der Preis noch tiefer fällt, werde ich umkehren, wenn nicht, werde ich buy[i...20] behalten.

Dies sind nicht-triviale Überlegungen über die Zukunft und führen zur Entdeckung der realisierten Position....

Aber es gibt unzählige solcher Kombinationen von Argumentationsoptionen, und damit wir sie nicht alle durchgehen müssen, trainieren wir die Q-Funktion, d.h. der Agent nimmt nur die Optionen zum Argumentieren, die einen guten Q-Wert haben,

Q-Neuron oder -Matrix wird vorher trainiert...

So sehe ich das...

Wenn man anfängt, es richtig zu sehen, verschwindet der "Wow-Faktor".

Sie beschreiben die Politik eines Agenten, einen mehrgleisigen Ansatz. Ich habe alles darüber geschrieben. Ich schreibe in Nerd-Sprache, damit es Sinn macht, und ich habe es vergessen.

Genau, es ist so primitiv.

Es gibt hier eine, die sich über Agenten echauffiert hat, bevor sie verbannt wurde).

 
Valeriy Yastremskiy #:

Ich stimme zu, kaufen verkaufen nicht handeln ist nicht Staaten. Es gibt eine ganze Reihe von Zuständen. ))))

Agentenzustände oder Handlungszustände. Ich schlage vor, dass Sie ein paar Monate damit verbringen, Bücher zu lesen, um zu verstehen, worüber Sie geschrieben haben, und zu denselben Schlussfolgerungen kommen), denn ohne die Reaktion der Umwelt auf die Aktionen des Agenten gibt es nichts zu optimieren.

Es gibt Zustände der Umwelt, Zustände des Agenten, Matrizen von Übergängen (Politiken) des Agenten von Zustand zu Zustand, wobei Änderungen in der Umwelt berücksichtigt werden. Ihre Umgebung ist statisch, sie ändert sich nicht durch die Aktionen des Agenten. Das heißt, Sie müssen nur die Matrix der Aktionen des Agenten in einer statischen Umgebung, d.h. die Ziele, definieren. Die Markierung der Ziele erfolgt in einem Durchgang.
 
Maxim Dmitrievsky #:
Agenten-Zustände oder Aktionen. Ich schlage vor, dass Sie ein paar Monate lang Bücher lesen, um zu verstehen, worüber Sie geschrieben haben, und zu denselben Schlussfolgerungen kommen) Ohne die Reaktion der Umwelt auf die Aktionen des Agenten gibt es nichts zu optimieren, das geschieht in einem Durchgang.

Es gibt Zustände der Umwelt, Zustände des Agenten, Matrizen von Übergängen (Politiken) des Agenten von Zustand zu Zustand unter Berücksichtigung von Veränderungen in der Umwelt. Ihre Umgebung ist statisch, sie ändert sich nicht durch die Aktionen des Agenten. Das heißt, Sie müssen nur die Matrix der Aktionen des Agenten in einer statischen Umgebung, d.h. die Ziele, definieren. Die Markierung der Ziele erfolgt in einem Durchgang.
Wenn ich den Agenten für unrentable Geschäfte bestrafen will.
Das Ziel lautet: "Handeln Sie, was Sie wollen, aber keine Verlustgeschäfte, und bleiben Sie im Markt."

Wie kann man das mit Aufschlägen beschreiben?