Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 3157

 
Maxim Dmitrievsky #:
Nein

Pakete sind gut, aber zuerst müssen Sie im Prinzip verstehen, was Sie tun müssen.


Chat-Antwort über Kozuli-Methoden


Es gibt mehrere Methoden, die für kausale Schlussfolgerungen verwendet werden. Einige der gängigsten Methoden sind:

  1. Randomisierte kontrollierte Experimente: Diese Methode wird verwendet, um kausale Beziehungen in komplexen Umgebungen zu ermitteln. Sie beinhaltet eine vollständige Kontrolle über den Zuweisungsmechanismus und die Zuweisung erfolgtnach dem Zufallsprinzip1.
  2. Beobachtungsdaten: Diese Methode wird eingesetzt, wenn Experimente nicht möglich oder nicht praktikabel sind. Sie umfasst die Analyse von Daten, die aus natürlichen Quellen wie Erhebungen oderVerwaltungsunterlagen gesammeltwurden1.
  3. Instrumentelle Variablen: Diese Methode wird verwendet, um kausale Zusammenhänge zu ermitteln, wenn es Probleme mit der Endogenität oder dem Mangel anDaten gibt1.
  4. Propensity Matching: Diese Methode wird verwendet, um Gruppen mit ähnlichen Merkmalen zu vergleichen, um die Auswirkungen vonStörfaktoren zu beseitigen1.
  5. Difference-in-Difference-Schätzer: Diese Methode wird verwendet, um Veränderungen im Zeitverlauf und zwischenGruppen zu analysieren1.

Dies sind nur einige der vielen Methoden, die für den Kausalschluss verwendet werden. Jede Methode hat ihre eigenen Vor- und Nachteile, und die Wahl der Methode hängt von der jeweiligen Situation und den verfügbaren Daten ab.


Erzählen Sie uns von Punkt 1

Randomisierte kontrollierte Experimente, auch bekannt als randomisierte kontrollierte Studien (RCTs), sind eine leistungsfähige Methode zur Entdeckung kausaler Zusammenhänge. Bei einer RCT werden die Teilnehmer nach dem Zufallsprinzip in zwei oder mehr Gruppen eingeteilt. Eine Gruppe erhält eine Intervention (z. B. ein Medikament) und die andere Gruppe ein Placebo oder eine Standardbehandlung. Die Forscher vergleichen dann die Ergebnisse zwischen den Gruppen, um festzustellen, ob es einen Unterschied bei den Ergebnissen gibt.

Der Hauptvorteil der RCT besteht darin, dass die zufällige Zuweisung der Teilnehmer zu den Gruppen dazu beiträgt, Verzerrungen und Verwechslungen auszuschließen. Das bedeutet, dass etwaige Unterschiede bei den Ergebnissen zwischen den Gruppen auf die Exposition und nicht auf andere Faktoren zurückgeführt werden können.

RCTs sind jedoch nicht immer möglich oder praktikabel. Sie können zum Beispiel teuer sein, einen hohen Zeit- und Ressourcenaufwand erfordern oder ethisch nicht vertretbar sein. In diesen Fällen können die Forscher andere Methoden des Kausalschlusses anwenden.


======================================

Machen Sie das? Wie es aussieht, handelt es sich um eine Phyche selecta boruta .


 
Maxim Dmitrievsky #:

Du kannst es selbst ausprobieren, ich habe ein bisschen ein Kozul-Thema entwickelt, damit es nicht langweilig wird.

Offensichtlich haben Sie ein umgedeutetes und überladenes (im Sinne der Programmierung) Konzept von einem Tritment. Ursprünglich ist es eine viel einfachere und eindeutige Sache. Könnte ein derartig erweiterter Begriff nicht zu Überlernung führen? In dem Sinne, dass mehr Flexibilität immer dazu führen kann.

 
Aleksey Nikolayev #:

Offensichtlich haben Sie einen umgedeuteten und überladenen (im Sinne der Programmierung) Begriff von einem Tritment. Ursprünglich ist es eine viel einfachere und eindeutige Sache. Könnte ein derartig erweiterter Begriff nicht zum Überlernen führen? In dem Sinne, dass mehr Flexibilität immer dazu führen kann.

Ich weiß es nicht, ich esse McDonald's :) Wahrscheinlich schon. Ich habe das angebotene Material nur überflogen, aus allen Blickwinkeln.
 
mytarmailS #:

Pakete sind gut, aber man muss erst einmal wissen, was man tut.


Chat-Antwort über Kozuli-Methoden


Es gibt mehrere Methoden, die für kausale Schlussfolgerungen verwendet werden. Einige der gängigsten Methoden sind:

  1. Randomisierte kontrollierte Experimente: Diese Methode wird verwendet, um kausale Beziehungen in komplexen Umgebungen zu ermitteln. Sie beinhaltet eine vollständige Kontrolle über den Zuweisungsmechanismus und die Zuweisung erfolgtnach dem Zufallsprinzip1.
  2. Beobachtungsdaten: Diese Methode wird eingesetzt, wenn Experimente nicht möglich oder nicht praktikabel sind. Sie umfasst die Analyse von Daten, die aus natürlichen Quellen wie Erhebungen oderVerwaltungsunterlagen gesammeltwurden1.
  3. Instrumentelle Variablen: Diese Methode wird verwendet, um kausale Zusammenhänge zu ermitteln, wenn es Probleme mit der Endogenität oder dem Mangel anDaten gibt1.
  4. Propensity Matching: Diese Methode wird verwendet, um Gruppen mit ähnlichen Merkmalen zu vergleichen, um die Auswirkungen vonStörfaktoren zu beseitigen1.
  5. Difference-in-Difference-Schätzer: Diese Methode wird verwendet, um Veränderungen im Zeitverlauf und zwischenGruppen zu analysieren1.

Dies sind nur einige der vielen Methoden, die für den Kausalschluss verwendet werden. Jede Methode hat ihre eigenen Vor- und Nachteile, und die Wahl der Methode hängt von der jeweiligen Situation und den verfügbaren Daten ab.


Erzählen Sie mir von Punkt 1

Randomisierte kontrollierte Experimente, auch bekannt als randomisierte kontrollierte Studien (RCTs), sind eine leistungsfähige Methode zur Ermittlung von Ursache-Wirkungs-Beziehungen. Bei einer RCT werden die Teilnehmer nach dem Zufallsprinzip in zwei oder mehr Gruppen eingeteilt. Eine Gruppe erhält eine Intervention (z. B. ein Medikament) und die andere Gruppe ein Placebo oder eine Standardbehandlung. Die Forscher vergleichen dann die Ergebnisse zwischen den Gruppen, um festzustellen, ob es einen Unterschied bei den Ergebnissen gibt.

Der Hauptvorteil der RCT besteht darin, dass die zufällige Zuweisung der Teilnehmer zu den Gruppen dazu beiträgt, Verzerrungen und Verwechslungen auszuschließen. Das bedeutet, dass etwaige Unterschiede bei den Ergebnissen zwischen den Gruppen auf die Exposition und nicht auf andere Faktoren zurückgeführt werden können.

RCTs sind jedoch nicht immer möglich oder praktikabel. Sie können zum Beispiel teuer sein, einen hohen Zeit- und Ressourcenaufwand erfordern oder ethisch nicht vertretbar sein. In diesen Fällen können die Forscher andere Methoden des Kausalschlusses anwenden.


======================================

Machen Sie das? Wie es aussieht, handelt es sich um eine Phyche selecta boruta .


Nun, über Meta-Lerner fragen und orthogonales Lernen steht alles in dem Buch. Und Cross-Fitting.
 
Maxim Dmitrievsky #:
Nun zu den Meta-Lernern, fragen Sie nach dem orthogonalen Lernen, es steht schließlich im Buch

Meta-Lernen ist ein Ansatz des maschinellen Lernens, der es Algorithmen ermöglicht, sich auf der Grundlage früherer Erfahrungen schnell an neue Aufgaben anzupassen.Im Zusammenhang mit kausalen Schlussfolgerungen kann Meta-Lernen verwendet werden, um Vorhersagemodelle für kausaleSchlussfolgerungen wiederzuverwenden1.

Alle prädiktiven Modelle wie lineare Regression, geboostete Entscheidungsbäume, neuronale Netze oder Gaußsche Prozesse können mit den in diesem Kapitel beschriebenen Ansätzen für den Kausalschluss angepasst werden.Der Erfolg des Meta-Learnings hängt also von der Qualität der verwendeten prädiktiven Modelle ab und davon, wie gut sie an dieAufgabe desKausalschlusses angepasstwerden1.

Dies ist ein relativ neues und sich aktiv entwickelndes Forschungsgebiet, und es gibt viele verschiedene Ansätze für Meta-Learning im Zusammenhang mit Kausalschlüssen.

========================

Orthogonales Lernen ist ein Ansatz des maschinellen Lernens, der zur Verbesserung der kausalen Inferenz verwendet wird. Ein Beispiel für orthogonales Lernen ist das Double Machine Learning, das von Chernozhukov et al. 1. Bei dieser Methode wird ein zweistufiger Schätzer verwendet, der zunächst die Wirkung von hochdimensionalen Störfaktoren mit Hilfe hochentwickelter Algorithmen des maschinellen Lernens, darunterLasso2 , orthogonalisiert.

OrthogonalesLernen wird auch in anderen Kausalschlussmethoden wie Orthogonal RandomForest1verwendet. Dieser Algorithmus kombiniert duales maschinelles Lernen mit verallgemeinerten Random Forests zur statistischen Schätzung von bedingten Momentmodellen unter Verwendung von Random Forests.

Im Allgemeinen verbessert orthogonales Lernen die Genauigkeit und Robustheit von Kausalschlüssen, indem es den Einfluss von Störfaktoren entfernt und die Anfälligkeit für Fehler bei der Parameterschätzung verringert.

 
Aleksey Nikolayev #:

Offensichtlich haben Sie einen umgedeuteten und überladenen (im Sinne der Programmierung) Begriff von einem Tritment. Ursprünglich ist es eine viel einfachere und eindeutige Sache. Könnte ein derartig erweiterter Begriff nicht zum Überlernen führen? In dem Sinne, dass mehr Flexibilität immer dazu führen kann.

Maxim schrieb oben - es funktioniert nicht bei OOS, was ein wesentliches Anzeichen für Modellübertraining ist.

So wie ich es verstehe, wird ein Modell genommen, dessen Ergebnisse man versucht zu verfeinern, um den Fehler zu reduzieren.

Die Fehlerquelle bei OOS sind jedoch die Daten selbst, wenn dieselben Prädiktorwerte in verschiedenen Situationen unterschiedliche Klassen vorhersagen. Dieser Fehler in den Prädiktoren kann durch keine mathematische Übung behoben werden, man kann keinen Müll reparieren, aber bei Müll kann man einen sehr kleinen Trainingsfehler erhalten, weil der Algorithmus "geeignete" Daten findet und ein gutes Ergebnis zeigt. Bei neuen Daten ist das Ergebnis jedoch beklagenswert, weil der Algorithmus seinen eigenen Schrott hat.

Gleichzeitig kann man das Problem der Verwendung von Cajual folgendermaßen sehen.

Angenommen, wir haben Prädiktoren, von denen 50 % der Werte eine der Klassen vorhersagen und die anderen 50 % zufällig eine beliebige Klasse vorhersagen.

Wir passen das Modell an und erhalten den Klassifikationsfehler.

Nun stellt sich die Frage: Ist dieser Klassifizierungsfehler mit der Aufteilung der Prädiktorenwerte vereinbar oder nicht? Wenn er verbessert werden kann, dann ist er cajual, und wenn nicht, dann auf keinen Fall NICHT cajual, da wir eine Überanpassung des Modells erhalten.

 
Maxim Dmitrievsky #:
Ja. Sie können die Tritment-Variable aus der Liste streichen und einen Enhancer ohne sie erstellen. Ich kann es nicht mit ihr machen. Und um eine unverzerrte Schätzung zu erhalten, führen Sie eine Kreuzanpassung durch.
.

Mir ging es bei diesen Definitionen genauso, also keine Sorge :)

Es ist keine Frage der Terminologie, es ist eine Frage, was es ist und wie man es anwendet...

Double Machine Learning ist eine Technik, die verwendet wird, um kausale Beziehungen in Daten zu bewerten

1) Was soll geschätzt werden?

2) Gut, ich habe es geschätzt und was dann?

 
mytarmailS #:

Es ist keine Frage der Terminologie, sondern eine Frage dessen, was es ist und wie es angewendet wird.

Doppeltes maschinelles Lernen ist eine Technik, die verwendet wird, um Ursache-Wirkungs-Beziehungen in Daten zu bewerten

1) Was auswerten?

2) Nun, Sie haben es geschätzt und was dann?

Als Nächstes können Sie die Ziele transformieren und die Gewichte erhalten, die ich bereits geschrieben habe. Sie werden unverzerrt sein. Die meisten der Kozuli über unverzerrte Schätzungen.


 
Es stellt sich heraus, dass es wie bei der Geschichte vom Elefanten und den Weisen ist. Das Buch hat alles, was sie brauchen, um eine Nacherzählung im Forum zu machen, um zu erkennen, dass es ein Elefant ist.
 
Aleksey Nikolayev #:

Dort, im Artikel, auf Seite 10, findet sich eine Implementierung in Form von Pseudocode. Auf der vorletzten Seite, im Anhang, finden sich Hinweise auf die Implementierung in R und auf die im Artikel verwendeten Daten.

Der Pseudocode bezieht sich auf Formeln :)

Was den R-Code angeht - danke - ich habe ihn übersehen. Ich nehme an, dass es sich um Funktionscode handelt, aber der Code selbst, z. B. das Lesen aus einer Datei, ist auskommentiert?

# --- Read in data --- 

# > arson = read.csv("arson.csv")
# > i = with(arson, day <= 731)
# > arson1 = arson[i,]
# > arson2 = arson[!i,]
# > arson2[,"day"] = arson2[,"day"] - 731

Ich habe noch nicht herausgefunden, wie man es zum Laufen bringt. Haben Sie es zum Funktionieren gebracht?

Aleksey Nikolayev #:

Wie implementieren Sie allgemein Entscheidungsbäume in mql5? Durch Arrays oder Vorlagen?

Ich habe noch keine Baumbildung in MQL5 implementiert - Forester hat hier mehr Erfahrung.

Ich denke aber, dass ich zusätzlich zu Arrays auch Vektoren und Matrizen verwenden würde - der Code ist damit schneller. Außerdem, so wie ich es verstehe, wird es möglich sein, OpenCL zu verwenden, da es eine vollständige Aufzählung erfordert.

Aber ich weiß nicht, was "Templates" in diesem Zusammenhang sind :(

Da es Code in R gibt, ist es sinnvoll, am Anfang zu verstehen, ob das alles Sinn macht oder nicht.

Das Beispiel aus dem Artikel verwendet eine kleine Anzahl von Prädiktoren, ich habe eine Größenordnung mehr von ihnen und natürlich sind sie einzeln weniger informativ.

Im Allgemeinen bin ich daran interessiert, die Methode nicht nur für den Vergleich zweier Stichproben zu verwenden, sondern auch, um Anomalien in den Daten zu erkennen - ich denke, das ist der richtige Weg.

Die Idee ist, dass wir Gruppen von Blättern haben, auch wenn sie ähnlich sind, und wenn wir ein anomales Verhalten eines Prädiktors sehen, deaktivieren wir einfach alle Blätter, die ihn verwenden, während wir auf Korrelation mit Blättern aus der Gruppe prüfen. Wenn dies rechtzeitig erkannt wird, kann das Modell im Idealfall weiterlaufen, wenn auch mit geringerem Vertrauen.