Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 2037

 
Rorschach:

Die letzte Spalte ist das Ziel, der Rest ist die Eingabe

Im Allgemeinen unterteile ich die Stichprobe in 3 Teile: 60 % für die Ausbildung und 20 für die Kontrollausbildung und die nicht an der Ausbildung beteiligte Stichprobe.

Der Speicher frisst viel - 18 Gigabyte - ich bin überrascht. Wie viel Speicherplatz haben Sie?

Ich habe den Lernprozess mit fast den Standardeinstellungen begonnen, aber ich sehe, dass sich die Trainingsstichprobe schnell verbessert, während die Kontrollstichprobe nach dem ersten Baum keine Verbesserung zeigt.

Die Frage ist also: Sind Sie sicher, dass es hier ein Muster gibt?

Es gibt einen Hinweis darauf, dass die Klassen überhaupt nicht gut ausbalanciert sind, es scheint ein Prozentsatz von Einheiten um die 10% zu sein?

 
Igor Makanu:

Wir können also das Konzept der TK nicht formalisieren?

Sieht es so aus, als ob TC eine Inspiration ist oder ein Musikinstrument spielt?

Sobald wir es schaffen, sie zu formalisieren und in einer Sprache zu schreiben, werden einige schlaue Leute einen Compiler für diese Sprache erfinden, und die Händler werden in der Versenkung verschwinden.)

Igor Makanu:

Oder kehren wir zurück zu unserem ... - Es zeigt sich, dass TS in erster Linie die Analyse von Marktinformationen und die Entscheidungsfindung ist

Wenn Sie nicht verstehen, was die oben genannten Wörter bedeuten, und Ihnen klar ist, dass aus diesem Grund die Ergebnisse der Analyse derselben Informationen für verschiedene Personen nicht die gleichen sein können und dass nur die Zukunft zeigen kann, wer Recht hat)

 
dr.mr.mom:

Warum dieser globale Pessimismus? ))) Ich habe mir angesehen", wie sie vor allen modernen Paketen in NeuroShell Day Pro trainiert werden. Und selbst dann bekam ich robuste Ergebnisse, von denen ich nicht weiß, wie sie im Inneren funktionieren, und es war fast unmöglich, MT4 hinzuzufügen.

Ich stimme zu, dass es wünschenswert wäre, die GPU anzuschrauben.

Die Frage ist, was für eine Art von NS sie sind und in welchem Paradigma sie aufgebaut/gelernt wurden, meins entwickelt sich.

Ja, die erste robuste Variante kann sogar einen Tag lang trainiert werden (obwohl es in der Praxis auf einem uralten Laptop zu Hause 8 Stunden dauert). Aber auf die Notwendigkeit der Weiterentwicklung der ersten Variante auf Kosten ihrer Robustheit zurückzukommen, wird in einem Monat notwendig sein. D.h. auch bei zehn funktionierenden Werkzeugen im realen Leben wird es vorher eine neue Variante geben.

Was nun die Architektur betrifft, so nehmen wir den NEAT-Algorithmus als Grundlage und fügen unsere eigenen Funktionen hinzu. Am Ausgang wird sich die Architektur weiterentwickeln, auch die Architektur.

Es geht also folgendermaßen.

Gleichzeitig empfehle ich, Bücher/Vorlesungen über Mikrobiologie usw. zu lesen.

Und bei Streitigkeiten ist leider der eine ein Narr (argumentiert ohne Wissen), der andere ein Bastard (argumentiert mit Wissen), ich bevorzuge einen Meinungsaustausch mit Argumenten/Begründungen.

Schließlich geht es darum, etwas zu bewirken, zur Hölle damit, auf geht's)))

Nichts, worüber man streiten müsste, denn in jedem normalen Rahmen wurde und wird mit einem Minimum an Code gezeigt

Homebrews werden hier nicht besonders diskutiert, nur ausgereifte Modelle wie Catbust oder neuronale Netze von heute

Dieses Mausgetue mit den neuronalen Netzen von mql ist nicht einmal interessant zu diskutieren, denn die Welt ist weit voraus, und jedes Jahr verdoppelt sich der Abstand.

Angenommen, Sie sagen mir: "Ich habe so und so ein Modell auf Tensorflow"... Ich sage: "Gut, ich kann das gleiche Modell 5 Minuten lang auf einem Torch erstellen und es überprüfen. Und Sie sagen mir, dass Sie etwas in mql gebaut haben. Wozu benötige ich diese Informationen und wie kann ich sie wiederherstellen?

 
Aleksey Vyazmikin:

Im Allgemeinen habe ich die Stichprobe in 3 Teile aufgeteilt: 60 % für die Ausbildung, 20 für die Kontrollausbildung und eine Stichprobe, die nicht an der Ausbildung teilnimmt.

Es verbraucht eine Menge Speicher - 18 Gigabyte - das überrascht mich. Wie viel Speicherplatz haben Sie?

Ich habe den Lernprozess mit fast den Standardeinstellungen begonnen, aber ich sehe, dass sich die Trainingsstichprobe schnell verbessert, während die Kontrollstichprobe nach dem ersten Baum keine Verbesserung zeigt.

Die Frage ist also: Sind Sie sicher, dass es hier ein Muster gibt?

Es gibt einen Hinweis darauf, dass die Klassen überhaupt nicht gut ausbalanciert sind, es scheint ein Prozentsatz von Einheiten um die 10% zu sein?

Baumsysteme brauchen keinen Klassenausgleich in einer großen Stichprobe. Neuronale Netze werden durch Ungleichgewichte gestört, und Bäume verteilen alles auf Blättern.
Das ist einer der Gründe, warum ich auf Bäume umgestiegen bin.

https://www.mql5.com/ru/blogs/post/723619

Нужна ли деревьям и лесам балансировка по классам?
Нужна ли деревьям и лесам балансировка по классам?
  • www.mql5.com
Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015 там есть несколько страниц посвященных этой теме. Вот итоговая: Отмеченный
 
Aleksey Nikolayev:

Nun, ja, nur die Erkenntnis, dass es unmöglich ist, klar und eindeutig zu formalisieren, was diese Worte bedeuten) und die Erkenntnis, dass aus diesem Grund die Ergebnisse der Analyse derselben Informationen von einer Person zur anderen sehr unterschiedlich sein können und dass nur die Zukunft zeigen kann, wer Recht hatte)

Mit der Analyse von Marktinformationen gibt es im Allgemeinen kein Problem... mit Ausnahme der Gier des Forschers, der glaubt, dass der Markt nur ihm Informationen liefert und er alle Daten verarbeiten muss, d.h. hier wird die Aufgabe formalisiert als Suche nach einem sich wiederholenden Muster, andere Daten sollten verworfen (nicht verwendet) werden

mit der Entscheidung ist traurig - zu generieren TS, die den Test und vorwärts ist möglich, aber zu finden, Verbindungen zwischen der Strategie-Tester Statistiken und die Zeit der Persistenz von TS oder die Möglichkeit, die Einhaltung der TS mit dem Markt Kontext zu bestimmen - das ist das Problem

d.h. wie Sie schreiben, liegt das Problem in der Zukunft


Ich denke, dass wir bei der Formalisierung des Problems im Allgemeinen ein wenig vorangekommen sind,

Im Prinzip ist es nicht schwierig, eine Entladung von Teststatistiken vorzunehmen und zu versuchen, NS in Python zu trainieren,

Bestimmung des Marktkontextes, imho, wie Sie geschrieben haben - nur eine Entscheidung des Händlers, d.h. ich bezweifle, dass es möglich ist, zu formalisieren oder zu algorithmisieren oder zu untersuchen

 
elibrarius:
Baumsysteme scheinen keinen Klassenausgleich zu benötigen. Neuronale Netze werden durch ein Ungleichgewicht blockiert, während Bäume alles auf die Blätter verteilen.
Das ist einer der Gründe, warum ich auf Bäume umgestiegen bin.

CatBoost ist erforderlich, aber es hat seine eigene Balancer, aber offenbar nicht bewältigen kann.

Im Allgemeinen, wenn es ein starkes Ungleichgewicht gibt, dann wird das Lernen gehen, aber statistisch gesehen wird es mit mehr Nullen in den Blättern nur Nullen geben, d.h. wenn es wenige klare Regeln für das Ziehen einer kleinen Klasse gibt, dann könnte es funktionieren, ansonsten wird es sich über die ganzen Blätter verteilen.

 
Aleksey Vyazmikin:

CatBoost ist erforderlich, hat aber einen eigenen Balancer, der aber offensichtlich versagt.

Im Allgemeinen, wenn es ein starkes Ungleichgewicht gibt, dann wird das Lernen gehen, aber statistisch mit mehr Nullen in den Blättern wird es nur Nullen geben, d.h. wenn es wenige klare Regeln für das Ziehen einer kleinen Klasse gibt, dann kann es funktionieren, ansonsten wird es sich über alle Blätter verteilen.

Oder wie immer gibt es fast keine Muster in den Daten.

Aleksey Vyazmikin:

Im Allgemeinen, wenn es ein starkes Ungleichgewicht gibt, dann wird das Lernen gehen, aber statistisch mit mehr Nullen in den Blättern wird es nur Nullen geben, d.h. wenn es wenige klare Regeln für das Herausziehen einer kleinen Klasse gibt, dann kann es funktionieren, sonst wird es über alle Blätter verschmiert werden.

Die Faustregel ist klar: Nimm den Split, der die Blätter am saubersten von den Verunreinigungen der anderen Klasse macht.

Ich habe einen Link zu einem Blog hinzugefügt, mit einer großen Stichprobe wird es etwas zu bilden Blätter mit kleinen Klasse, plus Sie können Gini-Index Wurzel (aber ich habe nicht gefunden, seine Formel).

 
Aleksey Vyazmikin:

Ich denke, bei einer so großen Datenmenge sollten Sie die Bäume tiefer machen, damit die Blätter besser bereinigt werden können.
Wenn Sie 10.000 Beispiele in einem Blatt haben, wird es natürlich verschmiert, aber wenn Sie es auf 100 aufteilen, wird es meiner Meinung nach klarer.

Alglibwald ist bis zu 1 Beispiel pro Blatt, die Trennung beträgt 100%. In den Blättern bleibt nur 0 oder 1 übrig.
 
elibrarius:
Aleksey Vyazmikin:

Oder wie immer gibt es fast kein Muster in den Daten.

Die Faustregel ist klar: Nimm den Split, der die Blätter am saubersten von Verunreinigungen einer anderen Klasse macht.

Ich fügte einen Link zu dem Blog, mit einer großen Stichprobe wird es etwas zu bilden Blätter mit einer kleinen Klasse, plus Sie können die Wurzel des Gini-Index (nur ich habe nicht die Formel gefunden).

Es gibt also nur wenige Prädiktoren - die Dimensionalität ist gering, so dass die Kombinationsmöglichkeiten der Bäume ebenfalls gering sind.

Ich habe eine Stichprobe von 1 % genommen - im Test wird zu 100 % gelernt - ich glaube nur nicht, dass es ein ausgeprägtes Muster gibt.

Außerdem werden die Prädiktoren von CatBoost nach dem Zufallsprinzip erstellt, so dass sich die Passung verringert.

elibrarius:

Ich denke, dass man bei einer so großen Datenmenge die Bäume tiefer machen muss, damit die Blätter besser zu erkennen sind.
Wenn Sie 10k Beispiele in einem Blatt haben, wird es natürlich verschmiert sein, aber wenn Sie die Trennung auf 100 bringen, wird es meiner Meinung nach schon klarer sein.

Der Baum ist 6 tief, und ich denke, wir brauchen mehr Tiefe, wenn wir mehr Prädiktoren haben.

Ich habe ein Raster von 256 erstellt.

 
Aleksey Vyazmikin:

Der Baum ist 6 tief, und ich denke, man braucht mehr Prädiktoren, um ihn zu vertiefen.

Das Raster beträgt 256.

Je mehr Reihen, desto mehr Tiefe wird benötigt.
Wenn es sich um Gigabytes handelt, bedeutet dies Millionen von Zeilen. Bei einer Tiefe von 6 besteht das endgültige Blatt aus 1/64 der vollen Anzahl von Beispielen/Zeilen, d. h. Zehntausende, wenn es Millionen von Eingaben gibt.

Versuchen Sie es mit einer Tiefe von 15 (dies scheint ein Maximum zu sein, das endgültige Arbeitsblatt wird 1/32768 Bruchteil der Gesamtzahl der Zeilen enthalten).