Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 2788

 
Maxim Dmitrievsky #:
Es gibt viele Unstimmigkeiten, auch bei der Entfernung von Ausreißern. Nach verschiedenen Berechnungen machen sie in der Regel 10 % des Datensatzes aus. Gelöscht und was, und wie wird das Modell handeln, wenn der Ausreißer erwischt wird? )
Die gleiche Situation bei Transformationen.
Wenn man die Vorverarbeitung klassisch durchführt, werden die Ergebnisse schlechter als bei Rohdaten.
Oder es werden zufällige Verbesserungen der Metriken als systemisch ausgegeben.

Nichts kann einfach so gemacht werden, nachdem man Lehrbücher und Artikel gelesen hat - dies ist ein separater Schritt und wird Lernen genannt. Ohne systematische Kenntnisse der Statistik gibt es in MOE nichts zu tun.

Es ist immer notwendig, etwas zu tun, um das Ziel zu erreichen.

Nehmen wir ein Zwischenziel - die maximale Vorhersagefähigkeit des Prädiktors, dann:

1. Es ist obligatorisch, Ausreißer zu entfernen. Wenn Werte über 0,5 % des Quantils als Ausreißer betrachtet werden, dann sind Ausreißer weniger als 1 %. Dies ist übrigens der Prozentsatz der ausgelösten Stopps in der Zukunft. Wir entwickeln das Handelssystem selbst, wir haben digitale Beschränkungen.

2. Die Vorverarbeitung ist obligatorisch, aber auch hier kommt es darauf an, um welche Art es sich handelt. Wenn wir über die Vorhersagefähigkeit des Prädiktors sprechen, dann können Sie keine Pisten korrigieren, die die Vorhersagefähigkeit erhöhen. Dies ist ein Beispiel. Im Allgemeinen nehmen wir einen Vorverarbeitungsalgorithmus und bewerten seine Auswirkungen auf die Vorhersagekraft. Die Antwort lautet hier.

3. Behalten Sie immer die Bedeutung von MO im Auge, die meiner Meinung nach darin besteht, nach bestimmten Mustern zu suchen. Am offensichtlichsten in RF. Welche Anzahl von Mustern ist in z.B. 5000 Balken enthalten? Oder ab welchem Fensterwert verringert eine Erhöhung der Anzahl der Muster nicht den Fehler? Oder ab welchem Wert der Anzahl der Muster sinkt der Fehler bei einem festen Fenster nicht mehr?

Antworten für RF.

1. es macht keinen Sinn, das Fenster über 1500 Balken zu vergrößern.

2. die Beziehung zwischen dem Fehler und der Anzahl der Muster (Bäume) ist in der Grafik deutlich zu erkennen:

Minimum 50. Im Allgemeinen von 100 bis 200. Das Diagramm ändert sich nicht, wenn man das Fenster bis 5000 vergrößert.

Man sollte immer das Ziel und das Kriterium für die Zielerreichung klar formulieren. Alles andere ist Blabla.

 
СанСаныч Фоменко #:

Man kann nichts einfach so tun, nachdem man Lehrbücher und Artikel gelesen hat - das ist ein separater Schritt und wird Studium genannt. Ohne systematische Kenntnisse der Statistik gibt es im MoE nichts zu tun.

Es ist immer notwendig, etwas zu tun und zu versuchen, das Ziel zu erreichen.

Wenn wir ein Zwischenziel nehmen - maximale Vorhersagefähigkeit des Prädiktors, dann:

1. Es ist obligatorisch, Ausreißer zu entfernen. Wenn Werte über 0,5 % des Quantils als Ausreißer betrachtet werden, dann sind Ausreißer weniger als 1 %. Dies ist übrigens der Prozentsatz der ausgelösten Stopps in der Zukunft. Wir entwickeln das Handelssystem selbst, wir haben digitale Zwänge.

2. Die Vorverarbeitung ist obligatorisch, aber auch hier kommt es darauf an, welcher Art sie ist. Wenn es um die Vorhersagefähigkeit des Prädiktors geht, dann kann man keine Steigungen korrigieren, die die Vorhersagefähigkeit erhöhen. Dies ist ein Beispiel. Im Allgemeinen nehmen wir einen Vorverarbeitungsalgorithmus und bewerten seinen Einfluss auf die Vorhersagekraft. Hier ist die Antwort.

3. Denken Sie immer an die Bedeutung von MO, die meines Erachtens darin besteht, nach bestimmten Mustern zu suchen. Am offensichtlichsten in RF. Welche Anzahl von Mustern ist in z.B. 5000 Balken enthalten? Oder ab welchem Fensterwert verringert eine Erhöhung der Anzahl der Muster nicht den Fehler? Oder für ein festes Fenster, ab welchem Wert der Anzahl der Muster sinkt der Fehler nicht mehr?

Antworten für RF.

1. Es macht keinen Sinn, das Fenster über 1500 Balken zu vergrößern.

2. Die Beziehung zwischen dem Fehler und der Anzahl der Muster (Bäume) ist in der Grafik deutlich zu erkennen:

Minimum 50. Im Allgemeinen von 100 bis 200. Das Diagramm ändert sich nicht, wenn das Fenster bis auf 5000 vergrößert wird.

Es ist immer notwendig, das Ziel und das Kriterium für die Zielerreichung klar zu formulieren. Alles andere ist Blabla.

Ich habe Emissionen durch Isolationswald erkannt, gelöscht, das Ergebnis des Trainings hat sich nicht geändert. Habe versucht, auf Emissionen zu trainieren - keine Änderung. Ich habe den Eindruck, dass das Modell (catbust) sich nicht um Emissionen kümmert. Als ob sie durch die Suche nach Anomalien gut erkannt werden, aber ihre Entfernung ist nicht notwendig.
 
Maxim Dmitrievsky #:
Ich habe Emissionen durch den Isolationswald erkannt und sie gelöscht, das Trainingsergebnis hat sich nicht verändert. Ich habe versucht, auf Emissionen zu trainieren - ohne Ergebnis. Ich habe den Eindruck, dass das Modell (catbust) sich nicht um Emissionen kümmert. Als ob sie durch die Suche nach Anomalien gut erkannt werden, aber ihre Entfernung nicht notwendig ist.

Die Ausreißer beeinflussen die Vorhersagekraft stark, und die Stabilität der Vorhersagekraft beeinflusst die Stabilität des Vorhersagefehlers.

Und für das Modell selbst gilt, dass es vom Modell abhängt, insbesondere wenn die Trainingsstichprobe aus der Stichprobe gewonnen wird.

 
Aleksey Nikolayev #:

Dabei kam mir die Idee eines lokalen Entscheidungsbaums in den Sinn. Er ist so etwas wie ein Analogon von KNN oder lokaler Regression (auch potenziell geeignet für Nicht-Stationarität). Die Idee ist, dass wir nur die Box, die den interessierenden Punkt enthält (bis zu einer bestimmten Anzahl von K Punkten), in Boxen aufteilen und uns um den Rest der Boxen nicht kümmern. Es kann besser sein als KNN oder lokale Regression, wenn die Grenzen zwischen den Klassen scharf sind und der Punkt nahe an einer solchen Grenze liegt.

Ich frage mich, ob der Ansatz überhaupt Sinn macht.

Es scheint mir, dass Sie unvergleichbare Dinge vergleichen - Skalierung ist Skalierung (sogar mehrdimensional, wenn Sie wollen, solange der Abstand Ihnen passt), und Filterung von Rauschen - das können Sie mit Ableitungen (1. und 2.) machen.-- na ja, oder Sie wechseln zu Vektormatrizen in einer völlig unüberwachten Art und Weise, anstatt die Signifikanz von Klassenunterschieden (etikettiert) durch Kovarianzmatrizen der etikettierten Daten zu beweisen und die bestätigte Signifikanz für die Klassifizierung des Themas, das Sie interessiert, weiter zu nutzen...

Hypothesen, meine Herren, Hypothesen sind keine Art der Berechnung, sondern ein Gegenstand des Beweises (oder der Widerlegung) ....

 
JeeyCi #:

Es scheint mir, dass Sie unvergleichbare Dinge vergleichen - Skalierung ist Skalierung (sogar mehrdimensional, wenn Sie wollen, solange Ihnen der Abstand passt), und Filterung von Rauschen - das können Sie mit Ableitungen (1. und 2.) tun.-- na ja, oder Sie wechseln zu Vektormatrizen in einer völlig unüberwachten Art und Weise, anstatt die Signifikanz von Klassenunterschieden (etikettiert) durch Kovarianzmatrizen der etikettierten Daten zu beweisen und die bestätigte Signifikanz für die Klassifizierung des Themas, das Sie interessiert, weiter zu nutzen...

Hypothesen, meine Herren, Hypothesen sind keine Art der Berechnung, sondern ein Gegenstand des Beweises (oder der Widerlegung) ....

Ich habe nichts verstanden, aber es ist sehr interessant.

 
СанСаныч Фоменко #:

Die Ausreißer wirken sich stark auf die Vorhersagefähigkeit aus, und die Stabilität der Vorhersagefähigkeit wackelt mit der Stabilität des Vorhersagefehlers.

Und für das Modell selbst, es hängt von dem Modell, vor allem, wenn die Ausbildung Probe aus der Probe erhalten wird.

Wie hoch ist der R2-Wert zwischen Ihrer Methode zur Bestimmung der Vorhersagefähigkeit und der Merkmalsbedeutung von Random Forest?

 

Hallo zusammen.
Ich habe eine Frage: Ist es überhaupt realistisch, einen Hash als Prädiktor zu verwenden?

Zum Beispiel
LlLCmywDpe8dj_j8t8DWwoMjaIhTLnOedRh6KET7R7k

wo das Ziel
1.04 ist.

Ist es sinnvoll, dies irgendwie in eine Zahl oder eine andere Form umzuwandeln?

 
Roman #:

Hallo zusammen.
Ich habe eine Frage: Ist es überhaupt realistisch, einen Hash als Prädiktor zu verwenden?

wie diese
LlLCmywDpe8dj_j8t8DWwoMjaIhTLnOedRh6KET7R7k

wo das Ziel
1.04

Ist es sinnvoll, es irgendwie in eine Zahl oder eine andere Form umzuwandeln?

Es ist also eine Zahl in 256-Element-Notation (wenn die Zeichenkette ANSI-kodiert ist). Da Hashes eine feste Länge haben, kann man sie immer noch als Zahlenvektoren von 0 bis 255 darstellen.

Wollen Sie Bitcoin knacken?)

 
Aleksey Nikolayev #:

Es handelt sich also um eine Zahl in einem 256-Elemente-Datensatz (wenn die Zeichenfolge ANSI-kodiert ist). Da Hashes eine feste Länge haben, können sie auch als Vektoren mit Zahlen von 0 bis 255 dargestellt werden.

Wollen Sie Bitcoin knacken?)

Mann,wie der String-Typ dich entspannt, dass du die ANSI-Kodierungverg isst.
Nein, nicht Bitcoin, Online-Gewinnspiele :))))


 
Evgeni Gavrilovi #:

Wie hoch ist der R2-Wert zwischen Ihrer Methode zur Bestimmung der Vorhersagefähigkeit und der Merkmalsbedeutung von Random Forest?

Schon oft erklärt.