Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 162

 
SanSanych Fomenko:

Danke, ich habe es gelesen.

Ich glaube, der Autor ist zu optimistisch.

Das Problem des Übertrainings ist nicht prinzipiell lösbar.

...

Theoretisch ist sie unter dem Gesichtspunkt der universellen Laplace-Determiniertheit lösbar, wenn z. B. alle notwendigen Faktoren im Voraus bekannt sind und ein Informationszugang zu ihnen besteht. In der Praxis ist diese "Entscheidbarkeit" jedoch mit vielen Problemen behaftet (nicht alle Faktoren sind bekannt und nicht alle sind verfügbar, und diejenigen, die verfügbar sind, sind oft verrauscht).

SanSanych Fomenko:


...

Meiner Überzeugung nach funktioniert die "Vergröberungs"-Methode nicht , wenn die Eingabeprädiktoren nicht zuerst von den Rauschprädiktoren befreit werden, d. h. wenn sie für die Zielvariable "irrelevant" sind.

Das scheint Ihrer Meinung nach, und basierend auf der Bestätigung durch meine Erfahrungen mit jPrediction, genau das zu sein, was es sein sollte?

Die Tragödie ist jedoch, dass nicht jede Erfahrung die obige Aussage bestätigt. Es hängt alles davon ab, welche Art von maschinellen Lernmethoden verwendet werden.

Viktor Tsaregorodtsev beispielsweise hat neuronale Netze mit BackPropagation erforscht und ist aufgrund der Ergebnisse in seinem Artikel"Reduction of neural network size does not lead to increased generalization ability" zu ganz gegenteiligen Schlussfolgerungen gekommen:

"Dies widerspricht der Ansicht, dass die Eliminierung von verrauschten, uninformativen Merkmalen und redundanten Neuronen in der Praxis zwingend erforderlich und sinnvoll ist."

Mit anderen Worten, es stellt sich heraus, dass es absolut nutzlos ist, allgemeine Schlussfolgerungen für ausnahmslos alle Methoden des maschinellen Lernens zu ziehen (um einen Einheitsansatz zu machen). Bei einigen Methoden werden solche "Schlussfolgerungen" richtig sein, während sie sich bei anderen als absichtlich fehlerhaft erweisen können.

 
Yury Reshetov:

Mit der Erhöhung der Komplexität der Modelle in jPrediction ist die schrittweise Erhöhung der Anzahl der Prädiktoren gemeint. Denn in jPrediction ist die Anzahl der Neuronen in der versteckten Schicht 2^(2*n+1), wobei n die Anzahl der Prädiktoren ist. Mit zunehmender Anzahl der Prädiktoren steigt also die Komplexität des Modells (Anzahl der Neuronen in der versteckten Schicht).


Wenn es 100 Prädiktoren gibt, dann entspricht nach Ihrer Formel die Anzahl der Neuronen in einer versteckten Schicht fast der Anzahl der Atome im Universum (ich habe Angst, auch nur an 200 Prädiktoren zu denken). Sie scheinen über göttliche Ressourcen zu verfügen - rechnerisch und zeitlich.



 
Andrej Dik:

CC hat gerade ein sehr unglückliches Beispiel gegeben, während er in seiner Unwissenheit verharrt...

Was meinen Sie mit "andere Kräfte"? Auf den Ball und den Flaum wirken dieselben Kräfte - die Schwerkraft (Gewicht) und die Kraft der Windströmung, die sich auf die halbe Fläche des Körpers verteilen.

...

Andrew, ich erinnere Sie daran, dass es in diesem Thread um maschinelles Lernen und nicht um physikalische Probleme geht.

Bitte seien Sie so freundlich, nicht über abwegige Themen zu flunkern, die in diesem Thread nicht erwünscht sind.

Wenn Sie so sehr mit Ihrem Wissen über Physik prahlen wollen, sollten Sie einen eigenen Thread dafür eröffnen.

Zumal Sie versuchen, die Metapher mit einem klugen Gesicht anzufechten und sich damit absichtlich in eine dumme Lage bringen.

 
Yury Reshetov:

Andrew, ich erinnere Sie daran, dass es in diesem Thread um maschinelles Lernen und nicht um physikalische Probleme geht.

Bitte seien Sie so freundlich, nicht über abwegige Themen zu flunkern, die in diesem Thread nicht erwünscht sind.

Wenn Sie mit Ihrem Wissen über Physik prahlen wollen, sollten Sie einen eigenen Thread über Physik eröffnen.

Das gilt umso mehr, wenn man versucht, eine kluge Miene aufzusetzen, um eine Metapher herauszufordern, und sich dabei absichtlich in eine dumme Lage bringt.

Nun, wenn Sie glauben, dass Metaphern, die auf falschen Beispielen beruhen, irgendeinen Wert haben, werde ich mich nicht weiter einmischen.

Es tut mir leid. Und Sie CC entschuldigen mich.

 
sibirqk:

Wenn es 100 Prädiktoren gibt, entspricht die Anzahl der Neuronen in einer versteckten Schicht nach Ihrer Formel in etwa der Anzahl der Atome im Universum (ich wage nicht einmal an 200 Prädiktoren zu denken). Sie scheinen über göttliche Ressourcen zu verfügen - rechnerisch und zeitlich.

Es ist mir egal, ob es 10.000 Prädiktoren gibt. Es ist nicht sicher, dass alle von ihnen informativ sind. Das heißt, jPrediction findet einige der informativsten unter ihnen und verkompliziert so nach und nach die Modelle. Sie endet, sobald die Verallgemeinerbarkeit abnimmt.

Es geht nicht um göttliche Ressourcen. Ein gewöhnlicher Personal Computer ist völlig ausreichend.

 
Andrej Dik:

OK, wenn Sie glauben, dass Metaphern, die auf falschen Beispielen beruhen, irgendeinen Wert haben, dann werde ich mich von nun an nicht mehr einmischen.

Es tut mir leid. Und Sie CC entschuldigen mich.

Metaphern haben nur einen rhetorischen Wert, unabhängig davon, wie erfolgreich sie in der Rhetorik sind. Und auf ihnen herumzuhacken ist ein mauvais ton.

Ich nehme die Entschuldigung natürlich an.

 
Yury Reshetov:
Metaphern haben keinen anderen Wert als den der Rhetorik, unabhängig von ihrem rhetorischen Erfolg. Und auf ihnen herumzuhacken ist ein mauvais ton.

Wenn etwas Gesagtes keinen Wert hat, ist es Bolabolismus. Ich glaube nicht, dass CC absichtlich bola-bola-bola-bola gemacht hat, es ist einfach die Art, wie er es gemacht hat.

Und Metaphern werden verwendet, wenn sie eine Idee durch einen Vergleich in verständlicher Sprache vermitteln wollen. So sind die einen Beispiele gut für einen Politiker, und andere Beispiele sind für einen Kernphysiker verständlich, so dass der Politiker und der Kernphysiker einander verstehen, sie verwenden Vergleiche, Metaphern. Die Metaphern haben also einen ganz bestimmten Zweck - sie sollen das Verständnis der Gesprächspartner erleichtern.

Schon gut, vergessen Sie es.

 
Andrej Dik:

Wenn etwas Gesagtes keinen Wert hat, ist es Bolabolismus. Ich glaube nicht, dass CC bola-bola-bola machen wollte, es hat sich einfach so ergeben.

Er hat lediglich eine schlechte Metapher geliefert. Na und? Ihn dafür an die Wand zu stellen?

Wir alle sind Menschen, und wir alle machen manchmal Fehler.

Ein weiterer Grund ist, dass es so viele Patzer gibt, die den Informationswert des Themas übermäßig schmälern. Und das ist nicht gut genug.

 
Yury Reshetov:

Theoretisch ist sie z. B. im Sinne des universellen Laplace-Determinismus lösbar, wenn alle notwendigen Faktoren bekannt sind und ein informationeller Zugang zu ihnen besteht. In der Praxis ist eine solche "Entscheidbarkeit" jedoch mit vielen Problemen verbunden (nicht alle Faktoren sind bekannt und nicht alle sind verfügbar, und diejenigen, die verfügbar sind, sind oft verrauscht).

Dies scheint Ihrer Meinung nach, und basierend auf der Bestätigung durch meine Experimente mit jPrediction, genau so zu sein, wie es sein sollte?

Das Problem ist jedoch, dass nicht jede Erfahrung die obige Aussage bestätigt. Es hängt alles davon ab, welche Art von maschinellen Lernmethoden verwendet werden.

Victor Tsaregorodtsev hat zum Beispiel einige Untersuchungen über neuronale Netze mit BackPropagation durchgeführt, und die Ergebnisse kamen zu ganz gegenteiligen Schlussfolgerungen in seinem Artikel"Reduction of neural network size does not lead to higher generalization ability", und ich zitiere:

"Dies widerspricht der Auffassung, dass die Eliminierung von verrauschten, uninformativen Merkmalen und redundanten Neuronen in der Praxis zwingend erforderlich und sinnvoll ist."

Mit anderen Worten, es stellt sich heraus, dass es absolut nutzlos ist, allgemeine Schlussfolgerungen für ausnahmslos alle Methoden des maschinellen Lernens zu ziehen (um einen Einheitsansatz zu machen). Bei einigen Methoden werden solche "Schlussfolgerungen" richtig sein, bei anderen können sie absichtlich falsch sein.

Schaut man sich die ersten Veröffentlichungen des Autors der Randomforest-Algorithmen an, so behauptet er allen Ernstes, dass rf überhaupt nicht zum Übertraining neigt und nennt zahlreiche Beispiele. Das randomforest-Paket selbst ist so aufgebaut, dass schon der geringste Verdacht auf Übertraining ausgeschlossen ist.

Der am meisten übertrainierte Algorithmus ist dabei der Randomforest. Ich habe mich persönlich verbrannt.

Ich glaube nur den Zahlen, die nach der folgenden Methode ermittelt wurden.

Wir nehmen zwei Dateien, die zeitlich aufeinander folgen.

Wir unterteilen die erste Datei willkürlich in drei Teile: Unterricht, Test und Validierung.

  • Wir lehren auf dem Trainingsteil, der wiederum dazu verwendet wird, den Algorithmus zu lehren, und auf dem Auswertungsteil - der Stichprobe AOB - wird Out-of-Sample genannt. Wir bekommen den Lernfehler. Wir erhalten ein Slice für ALE durch Kreuzvalidierungsalgorithmen, d.h. es ist immer anders.
  • Wir überprüfen das trainierte Modell anhand des Test- und Validierungsteils der ersten Datei.
  • erhalten wir den Fehler bei der Anwendung des zuvor trainierten Modells. Die drei Fehler sollten nahe beieinander liegen.

Fahren Sie mit der zweiten Datei fort, die zeitlich hinter der ersten Datei liegt.

Wenden Sie das trainierte Modell auf diese zweite Datei an. Der daraus resultierende Fehler sollte sich NICHT wesentlich von den 3 Fehlern unterscheiden.

DIES FÜHRT ZU VIER FEHLERWERTEN, DIE SICH NICHT SEHR STARK VONEINANDER UNTERSCHEIDEN.

Für mich ist dies der einzige Beweis dafür, dass es kein Übertraining gibt. Und wenn wir auch im Tester einen Fehler in der Nähe dieser vier erhalten, können wir handeln.

Das ist alles, woran ich glaube.

Eine überwältigende Anzahl von Veröffentlichungen zum maschinellen Lernen wird nicht an einer zweiten analogen Datei getestet. Der Grund dafür ist trivial. Die Algorithmen werden NICHT auf Zeitreihen angewendet. Und es stellt sich heraus, dass eine zufällige Aufteilung der Datei Nummer eins völlig ausreichend ist. Und das ist zum Beispiel bei der Handschrifterkennung der Fall.

 

Was meine Metaphern und Analogien angeht.

Ich habe einen Abschluss in angewandter Mathematik. Und meine Lehrer glaubten, dass ich, wie alle meine Klassenkameraden, in der Lage war, jedes mathematische Werkzeug zu beherrschen. Und meine Lehrer sahen das Hauptproblem unserer zukünftigen Arbeit darin, das Problem der Anwendbarkeit eines bestimmten Werkzeugs auf ein bestimmtes praktisches Problem zu lösen. Das ist es, was ich mein ganzes Leben lang getan habe, aber ich beherrsche jedes Werkzeug .... In R gibt es Hunderte oder Tausende von ihnen, was soll's?

Dieses ganze Getrolle an meiner Adresse...

Dem Troll zu widersprechen, bedeutet nur, ihn zu füttern.

Natürlich wünschte ich, ich könnte das Thema bereinigen, es war ein tolles Thema.