Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 163
![MQL5 - Sprache von Handelsstrategien, eingebaut ins Kundenterminal MetaTrader 5](https://c.mql5.com/i/registerlandings/logo-2.png)
Sie verpassen Handelsmöglichkeiten:
- Freie Handelsapplikationen
- Über 8.000 Signale zum Kopieren
- Wirtschaftsnachrichten für die Lage an den Finanzmärkte
Registrierung
Einloggen
Sie stimmen der Website-Richtlinie und den Nutzungsbedingungen zu.
Wenn Sie kein Benutzerkonto haben, registrieren Sie sich
1) Schaut man sich die ersten Veröffentlichungen des Autors der Randomforest-Algorithmen an, so behauptete er allen Ernstes, dass rf überhaupt nicht zum Übertraining neigt, und nannte zahlreiche Beispiele. Das randomforest-Paket selbst ist so aufgebaut, dass schon der geringste Verdacht auf Übertraining ausgeschlossen ist.
Der am meisten übertrainierte Algorithmus ist dabei der Randomforest. Ich habe mich persönlich verbrannt.
2) Die überwiegende Mehrheit der Veröffentlichungen zum maschinellen Lernen wird nicht an einer zweiten analogen Datei getestet. Der Grund dafür ist trivial. Die Algorithmen werden NICHT auf Zeitreihen angewendet. Und es stellt sich heraus, dass eine zufällige Aufteilung der Datei Nummer eins völlig ausreichend ist. Und das ist zum Beispiel bei der Erkennung von handgeschriebenem Text der Fall.
1) Sowohl Forrest und GBM als auch alle anderen Methoden werden neu trainiert. Unauffällig bei gefalteten Daten und sehr auffällig bei stark verrauschten Daten.
2) Es gibt Veröffentlichungen, in denen die Einführung der verschachtelten Kreuzvalidierung an zusätzlichen Stichproben in einem anderen Zeitbereich diskutiert wird.
2) Es gibt Veröffentlichungen, in denen die Einführung der verschachtelten Kreuzvalidierung an zusätzlichen Stichproben in einem anderen Zeitbereich diskutiert wird.
Wenn Sie nichts dagegen haben, verlinken Sie bitte
Eine der Diskussionen: http://stats.stackexchange.com/questions/65128/nested-cross-validation-for-model-selection
Ibid: /go?link=https://stats.stackexchange.com/questions/103828/use-of-nested-cross-validation
In den Diskussionen gibt es Links zu Artikeln.
Ein interessanter Artikel: http://www.andrewng.org/portfolio/preventing-overfitting-of-cross-validation-data/
Wie Sie aus dem Titel ersehen können, geht es um Übertraining, das in der Phase der Modellevaluierung auf der Grundlage von Validierungsfehlern der Kreuzvalidierung stattfindet. Daher benötigen Sie zusätzlich zur Kreuzvalidierung auch eine Stichprobe, um ein bereits ausgewähltes Modell zu bewerten.
Wenn krakto (bereits darüber geschrieben):
Ein durch Kreuzvalidierung ausgewähltes Modell muss durch eine weitere zeitverzögerte Stichprobe revalidiert werden.
Bei der verschachtelten Kreuzvalidierung werden n k-fache Kreuzvalidierungen (mit unterschiedlichen Daten) durchgeführt, gefolgt von einer Validierung mit n verzögerten Stichproben (jedes Mal mit unterschiedlichen Daten).
Und selbst das ist noch nicht alles. Wird die oberste Schicht der aufgeschobenen Stichproben erneut ausgewählt, z. B. ein Ausschuss von Modellen, die auf den Daten dieser aufgeschobenen Stichproben beruhen, dann muss die Ausschussvalidierung an einer weiteren aufgeschobenen Stichprobe durchgeführt werden.
Im Idealfall ist dieser Prozess:
k-fold кроссвалидация
-------------------------------- повторилась n раз
------------------------------------------------------------- на полученных данных сформирован комитет
------------------------------------------------------------------------------------------------------------------------ комитет валидирован на еще одной выборке из будущего
muss nicht nur einmal, sondern m-mal wiederholt werden, um die Ergebnisse auf der obersten Ebene umzukehren. Dadurch wird die Verzerrung auf ein praktikables Minimum reduziert.
Dabei kann sich jedoch der Erwartungswert von z.B. FS um ein Vielfaches verringern... Schmerz.
Einführung einer verschachtelten Kreuzvalidierung an zusätzlichen Proben in einem anderen Zeitbereich.
Ich mache auch etwas Ähnliches. Nehmen wir an, ich habe die Daten eines Jahres zum Trainieren. Ich werde 12 Modelle trainieren - eines auf Basis der Januar-Daten, das zweite Modell auf Basis der Februar-Daten, das dritte auf Basis der März-Daten usw. Ich wähle Prädiktoren und Modellparameter aus, um die gute Leistung eines dieser Modelle zu erhalten, die auf einem kleinen Teil der Daten während des gesamten Jahres trainiert wurden, und es gibt mir etwas Hoffnung, dass die verwendeten Prädiktoren eine konstante Korrelation zwischen ihnen haben. Entscheidungsfindung auf der Grundlage der neuen Daten unter Verwendung des gesamten Ensembles von Modellen.
Von allen Kreuzvalidierungsmethoden, die ich ausprobiert habe, lieferte diese Methode die besten Ergebnisse mit den neuen Daten. Aber es gibt eine Menge ungelöster Probleme - wie viele Modelle sollte es geben, d.h. ich kann hundert statt 12 trainieren, aber ist das sinnvoll? Die Bewertung des Handels ist auch wichtig, ich kann alles wählen, einschließlich rf oder scharf, ich muss experimentieren, um die beste zu finden.
Ich mache auch etwas Ähnliches. Nehmen wir an, ich habe Trainingsdaten aus einem Jahr. Ich werde 12 Modelle trainieren - eines für Januar, das zweite für Februar, das dritte für März usw. Ich wähle Prädiktoren und Modellparameter aus, um die gute Leistung eines dieser Modelle zu erhalten, die auf einem kleinen Teil der Daten während des gesamten Jahres trainiert wurden, und das gibt mir die Hoffnung, dass die verwendeten Prädiktoren stabile Beziehungen zwischen ihnen haben. Entscheidungsfindung auf der Grundlage der neuen Daten unter Verwendung des gesamten Ensembles von Modellen.
Von allen Kreuzvalidierungsmethoden, die ich ausprobiert habe, lieferte diese Methode die besten Ergebnisse mit den neuen Daten. Aber es gibt eine Menge ungelöster Probleme - wie viele Modelle sollte es geben, d.h. ich kann hundert statt 12 trainieren, aber ist das sinnvoll? Die Bewertung des Handels ist auch wichtig, Sie können alles wählen, einschließlich rf oder scharf, müssen Sie experimentieren, um die beste zu finden.
So etwas mache ich auch. Nehmen wir an, ich habe Trainingsdaten aus einem Jahr. Ich werde 12 Modelle trainieren - eines für Januar, das zweite für Februar, das dritte für März usw. Ich wähle Prädiktoren und Modellparameter aus, um die gute Leistung eines dieser Modelle zu erhalten, die auf einem kleinen Teil der Daten während des gesamten Jahres trainiert wurden, und das gibt mir die Hoffnung, dass die verwendeten Prädiktoren stabile Beziehungen zwischen ihnen haben. Entscheidungsfindung auf der Grundlage der neuen Daten unter Verwendung des gesamten Ensembles von Modellen.
Von allen Kreuzvalidierungsmethoden, die ich ausprobiert habe, lieferte diese Methode die besten Ergebnisse mit den neuen Daten. Aber es gibt eine Menge ungelöster Probleme - wie viele Modelle sollte es geben, d.h. ich kann hundert statt 12 trainieren, aber ist das sinnvoll? Die Bewertung des Handels ist auch wichtig, alles, was zur Auswahl steht, einschließlich rf oder scharf, müssen Sie experimentieren, um die beste zu finden.
Eine der Diskussionen: http://stats.stackexchange.com/questions/65128/nested-cross-validation-for-model-selection
Ibid: /go?link=https://stats.stackexchange.com/questions/103828/use-of-nested-cross-validation
In den Diskussionen gibt es Links zu Artikeln.
Ein interessanter Artikel: http://www.andrewng.org/portfolio/preventing-overfitting-of-cross-validation-data/
Wie Sie aus dem Titel ersehen können, geht es um Übertraining, das in der Phase der Modellevaluierung auf der Grundlage von Validierungsfehlern der Kreuzvalidierung stattfindet. Daher benötigen wir neben der Kreuzvalidierung eine weitere Stichprobe zur Schätzung des bereits ausgewählten Modells.