Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 163

 
SanSanych Fomenko:

1) Schaut man sich die ersten Veröffentlichungen des Autors der Randomforest-Algorithmen an, so behauptete er allen Ernstes, dass rf überhaupt nicht zum Übertraining neigt, und nannte zahlreiche Beispiele. Das randomforest-Paket selbst ist so aufgebaut, dass schon der geringste Verdacht auf Übertraining ausgeschlossen ist.

Der am meisten übertrainierte Algorithmus ist dabei der Randomforest. Ich habe mich persönlich verbrannt.


2) Die überwiegende Mehrheit der Veröffentlichungen zum maschinellen Lernen wird nicht an einer zweiten analogen Datei getestet. Der Grund dafür ist trivial. Die Algorithmen werden NICHT auf Zeitreihen angewendet. Und es stellt sich heraus, dass eine zufällige Aufteilung der Datei Nummer eins völlig ausreichend ist. Und das ist zum Beispiel bei der Erkennung von handgeschriebenem Text der Fall.

1) Sowohl Forrest und GBM als auch alle anderen Methoden werden neu trainiert. Unauffällig bei gefalteten Daten und sehr auffällig bei stark verrauschten Daten.

2) Es gibt Veröffentlichungen, in denen die Einführung der verschachtelten Kreuzvalidierung an zusätzlichen Stichproben in einem anderen Zeitbereich diskutiert wird.

 
Alexey Burnakov:

2) Es gibt Veröffentlichungen, in denen die Einführung der verschachtelten Kreuzvalidierung an zusätzlichen Stichproben in einem anderen Zeitbereich diskutiert wird.

Wenn Sie nichts gegen einen Link haben
 
SanSanych Fomenko:
Wenn Sie nichts dagegen haben, verlinken Sie bitte


Eine der Diskussionen: http://stats.stackexchange.com/questions/65128/nested-cross-validation-for-model-selection

Ibid: /go?link=https://stats.stackexchange.com/questions/103828/use-of-nested-cross-validation

In den Diskussionen gibt es Links zu Artikeln.

Ein interessanter Artikel: http://www.andrewng.org/portfolio/preventing-overfitting-of-cross-validation-data/

Wie Sie aus dem Titel ersehen können, geht es um Übertraining, das in der Phase der Modellevaluierung auf der Grundlage von Validierungsfehlern der Kreuzvalidierung stattfindet. Daher benötigen Sie zusätzlich zur Kreuzvalidierung auch eine Stichprobe, um ein bereits ausgewähltes Modell zu bewerten.

Nested cross validation for model selection
Nested cross validation for model selection
  • stats.stackexchange.com
How can one use nested cross validation for model selection? From what I read online, nested CV works as follows: There is the inner CV loop, where we may conduct a grid search (e.g. running K-fold for every available model, e.g. combination of hyperparameters/features) There is the outer CV loop, where we measure the performance of the model...
 

Wenn krakto (bereits darüber geschrieben):

Ein durch Kreuzvalidierung ausgewähltes Modell muss durch eine weitere zeitverzögerte Stichprobe revalidiert werden.

Bei der verschachtelten Kreuzvalidierung werden n k-fache Kreuzvalidierungen (mit unterschiedlichen Daten) durchgeführt, gefolgt von einer Validierung mit n verzögerten Stichproben (jedes Mal mit unterschiedlichen Daten).

Und selbst das ist noch nicht alles. Wird die oberste Schicht der aufgeschobenen Stichproben erneut ausgewählt, z. B. ein Ausschuss von Modellen, die auf den Daten dieser aufgeschobenen Stichproben beruhen, dann muss die Ausschussvalidierung an einer weiteren aufgeschobenen Stichprobe durchgeführt werden.

Im Idealfall ist dieser Prozess:

k-fold кроссвалидация 

-------------------------------- повторилась n раз

------------------------------------------------------------- на полученных данных сформирован комитет

------------------------------------------------------------------------------------------------------------------------ комитет валидирован на еще одной выборке из будущего 

muss nicht nur einmal, sondern m-mal wiederholt werden, um die Ergebnisse auf der obersten Ebene umzukehren. Dadurch wird die Verzerrung auf ein praktikables Minimum reduziert.

Dabei kann sich jedoch der Erwartungswert von z.B. FS um ein Vielfaches verringern... Schmerz.

 
Alexey Burnakov:

Einführung einer verschachtelten Kreuzvalidierung an zusätzlichen Proben in einem anderen Zeitbereich.

Ich mache auch etwas Ähnliches. Nehmen wir an, ich habe die Daten eines Jahres zum Trainieren. Ich werde 12 Modelle trainieren - eines auf Basis der Januar-Daten, das zweite Modell auf Basis der Februar-Daten, das dritte auf Basis der März-Daten usw. Ich wähle Prädiktoren und Modellparameter aus, um die gute Leistung eines dieser Modelle zu erhalten, die auf einem kleinen Teil der Daten während des gesamten Jahres trainiert wurden, und es gibt mir etwas Hoffnung, dass die verwendeten Prädiktoren eine konstante Korrelation zwischen ihnen haben. Entscheidungsfindung auf der Grundlage der neuen Daten unter Verwendung des gesamten Ensembles von Modellen.

Von allen Kreuzvalidierungsmethoden, die ich ausprobiert habe, lieferte diese Methode die besten Ergebnisse mit den neuen Daten. Aber es gibt eine Menge ungelöster Probleme - wie viele Modelle sollte es geben, d.h. ich kann hundert statt 12 trainieren, aber ist das sinnvoll? Die Bewertung des Handels ist auch wichtig, ich kann alles wählen, einschließlich rf oder scharf, ich muss experimentieren, um die beste zu finden.

 
Möchten Sie einen Tipp, den ich in meinem Artikel????? ausführlich erläutern werde? Willst du es oder nicht?
 
Dr. Trader:

Ich mache auch etwas Ähnliches. Nehmen wir an, ich habe Trainingsdaten aus einem Jahr. Ich werde 12 Modelle trainieren - eines für Januar, das zweite für Februar, das dritte für März usw. Ich wähle Prädiktoren und Modellparameter aus, um die gute Leistung eines dieser Modelle zu erhalten, die auf einem kleinen Teil der Daten während des gesamten Jahres trainiert wurden, und das gibt mir die Hoffnung, dass die verwendeten Prädiktoren stabile Beziehungen zwischen ihnen haben. Entscheidungsfindung auf der Grundlage der neuen Daten unter Verwendung des gesamten Ensembles von Modellen.

Von allen Kreuzvalidierungsmethoden, die ich ausprobiert habe, lieferte diese Methode die besten Ergebnisse mit den neuen Daten. Aber es gibt eine Menge ungelöster Probleme - wie viele Modelle sollte es geben, d.h. ich kann hundert statt 12 trainieren, aber ist das sinnvoll? Die Bewertung des Handels ist auch wichtig, Sie können alles wählen, einschließlich rf oder scharf, müssen Sie experimentieren, um die beste zu finden.

Antwort: 9
 
Dr. Trader:

So etwas mache ich auch. Nehmen wir an, ich habe Trainingsdaten aus einem Jahr. Ich werde 12 Modelle trainieren - eines für Januar, das zweite für Februar, das dritte für März usw. Ich wähle Prädiktoren und Modellparameter aus, um die gute Leistung eines dieser Modelle zu erhalten, die auf einem kleinen Teil der Daten während des gesamten Jahres trainiert wurden, und das gibt mir die Hoffnung, dass die verwendeten Prädiktoren stabile Beziehungen zwischen ihnen haben. Entscheidungsfindung auf der Grundlage der neuen Daten unter Verwendung des gesamten Ensembles von Modellen.

Von allen Kreuzvalidierungsmethoden, die ich ausprobiert habe, lieferte diese Methode die besten Ergebnisse mit den neuen Daten. Aber es gibt eine Menge ungelöster Probleme - wie viele Modelle sollte es geben, d.h. ich kann hundert statt 12 trainieren, aber ist das sinnvoll? Die Bewertung des Handels ist auch wichtig, alles, was zur Auswahl steht, einschließlich rf oder scharf, müssen Sie experimentieren, um die beste zu finden.

Es passt. Durch die Auswahl der Parameter und Eingaben können Sie leicht Modelle erhalten, die für mindestens 3 Jahre des Tests funktionieren.

Ich habe auch ein paar Moeydels (100), die gute Ergebnisse bei Daten außerhalb des Trainings zeigen. Wir reden hier von 10 Jahren... Das liegt aber nur daran, dass die Modelle speziell auf der Grundlage von Testdaten (außerhalb des Trainings) ausgewählt werden. Mit anderen Worten: die Prüfung überstehen.

Der nächste Schritt besteht darin, diese Modelle oder einen ausgewählten Ausschuss anhand einer zusätzlichen, zeitversetzten Stichprobe zu bewerten. Und vorzugsweise jedes Modell auf einzigartigen Daten. Dann werden Sie verstehen, wie die Qualität des Tests mit der Qualität der Stichprobe korreliert, bei der das Modell nicht ausgewählt wurde.
 
Alexey Burnakov:


Eine der Diskussionen: http://stats.stackexchange.com/questions/65128/nested-cross-validation-for-model-selection

Ibid: /go?link=https://stats.stackexchange.com/questions/103828/use-of-nested-cross-validation

In den Diskussionen gibt es Links zu Artikeln.

Ein interessanter Artikel: http://www.andrewng.org/portfolio/preventing-overfitting-of-cross-validation-data/

Wie Sie aus dem Titel ersehen können, geht es um Übertraining, das in der Phase der Modellevaluierung auf der Grundlage von Validierungsfehlern der Kreuzvalidierung stattfindet. Daher benötigen wir neben der Kreuzvalidierung eine weitere Stichprobe zur Schätzung des bereits ausgewählten Modells.

Ich danke Ihnen. Es ist schön zu sehen, dass ich nicht der Einzige bin, dem das am Herzen liegt.
 
Ihr seid langweilig, vor allem, wenn es um neue Erkenntnisse geht...