Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 2126

 
elibrarius:
Und was nützt es, wenn die Spanne nicht ausreicht?

bei Duplikaten immer Übererfassung, Modellresiduen sind autokorreliert

d.h. Selbstbetrug. siehe das Bild aus dem vorherigen Beitrag.
 
Maxim Dmitrievsky:

mit Duplikaten immer überschreiben, Modellresiduen sind autokorreliert

D.h. Selbstbetrug. Siehe das Bild aus dem vorherigen Beitrag.
Bild ohne Erklärungen - nur ein Bild)
 
elibrarius:
Bild ohne Erklärung - nur ein Bild)

Die Scharniere im ersten Bild sind die Markierungsserie, das Modell wird auf sie umtrainiert. Weil die neuen Daten eine völlig andere Reihe haben

aus dem Datensatz, ihre Beziehungen(Merkmalsraum). Ich habe bereits solche Screenshots geschrieben und geworfen.

 
 
Maxim Dmitrievsky:

Die Scharniere im ersten Bild sind die Serienmarkierungen und das Modell ist auf sie umgeschult. Weil die neuen Daten eine völlig andere Reihe haben

aus dem Datensatz, 5 Hauptkomponenten und ihre Beziehungen (Merkmalsraum). Ich habe diese Bildschirmfotos bereits geschrieben und eingefügt.

Wenn Sie die Ausbreitung nicht loswerden können, bedeutet das, dass Sie nicht viel umlernen müssen.
Meiner Meinung nach ist es besser, auf andere Weise gegen Übertraining vorzugehen.
 
elibrarius:
Wenn Sie den Spread nicht schlagen können, dann sind Sie nicht wirklich übertrainiert.
Meiner Meinung nach ist es besser, nicht abzuspecken, sondern auf andere Weise gegen Übertraining vorzugehen.
Die Streuung kann nach einer einfachen Dekorrelation nicht unterboten werden, aber das Modell ist bei neuen Daten ohne Streuung stabiler. Jedes Modell, das serienmäßig überfüllt ist, gießt ohne Aufstrich auf n.d., aber auf ein Tablett ist viel besser als das erste (funktioniert auch mit Aufstrich). Dies zeigt eindeutig eine Umschulung auf Serialisierung und nichts anderes. Ich weiß, es ist schwer zu verstehen, aber es ist so 🤣 Wenn du dir die Bilder noch einmal ansiehst, wirst du höhere Verteilungsspitzen und vielleicht Schwänze auf dem ersten Bild sehen. Das ist Serialität, Volatilität, was auch immer. Sie ändert sich fast sofort mit den neuen Daten, daher die Überanpassung. Das zweite untere Bild hat das nicht, es ist alles, was übrig ist, und in diesem Müll muss man nach einem Alpha suchen, das den Spread übertrifft. Sehen Sie sich einfach Ihre Daten an und entfernen Sie zumindest die Serialität oder transformieren Sie sie irgendwie, um die Schwänze zu entfernen. Und dann schauen Sie sich die Klassenverteilungen an, die übrig geblieben sind: Gibt es normale Cluster-Gruppen oder völlige Zufälligkeit wie bei mir. Auf diese Weise können Sie sogar visuell erkennen, ob der Datensatz funktioniert oder ob er überflüssig ist. Und dann können Sie die Validierung mit Trayn mischen, es wird nichts ändern. Und Sie sagen "nur ein Bild".
 
elibrarius:

//день недели, час = ввести через 2 предиктора sin и cos угла от полного цикла 360/7,  360/24
                     
if(nameInd[nInd]=="Hour")        {CopyTime        (sim,per,startDt,n_bar+1,dtm);TimeToStruct(dtm[0],dts);ArrayResize(tmp,1);tmp[0]=(double)(dts.hour*60+dts.min)*360.0/1440.0;tmp[0]=(buf==0?MathSin(tmp[0]*pi/180.0):MathCos(tmp[0]*pi/180.0));}// для увеличения точности добавлены минуты  360/24 = 360/24/60 = 360/1440

if(nameInd[nInd]=="WeekDay")     {CopyTime        (sim,per,startDt,n_bar+1,dtm);TimeToStruct(dtm[0],dts);ArrayResize(tmp,1);tmp[0]=(double)(dts.day_of_week*1440+dts.hour*60+dts.min)*360.0/10080.0;tmp[0]=(buf==0?MathSin(tmp[0]*pi/180.0):MathCos(tmp[0]*pi/180.0));}// для увеличения точности добавлены часы и минуты 360/7 = 360/7/24/60 = 360/10080

Nach dem Code, wenn buf==0, hat es einen Sinus, sonst ( buf==1 ) Kosinus.


Modelle aus Holz verdauen alles.
Sinus und Kosinus eignen sich gut für NS, da sie bereits auf -1...+1 normalisiert sind

Wenn Sie diese Variante mit der nummerierten Zeit vergleichen, sagen Sie mir, welche besser ist. Ich habe den Eindruck, dass es zu 100 % übereinstimmen sollte, wenn Sie den Wochentag, die Stunde und die Minute eingeben.

Sie sind sich nicht ganz sicher, ob Sinus oder Kosinus im Ermessen des Benutzers liegt?

pi - hast du es aus einer Bibliothek oder nur auf eine bestimmte Stelle genau, welche - du schreibst besser hier, welche Konstante du gesetzt hast.

 
Aleksey Vyazmikin:

Ich verstehe nicht ganz - wird der Sinus oder der Kosinus nach dem Ermessen des Benutzers ermittelt?

pi - hast du es aus der Bibliothek, oder ist es nur auf ein bestimmtes Zeichen genau, welches - du schreibst besser die Konstante, die du hier einstellst.

Sie benötigen 2 Spalten im Modell - sowohl Sinus als auch Cosinus für die Uhr. Und Sinus + Kosinus für den Wochentag. Unter dem Link finden Sie eine Beschreibung, warum dies getan werden sollte.

pi = 3,141529 ... von der Schule

 

Das oben besprochene Buch macht mir die Unzulänglichkeit meiner Kenntnisse in Mathematik bewusst, wenn jemand frei liest, beneide ich ihn.

Die Frage ist, wie man einen Prozess, der sich periodisch in unterschiedlichen Zeitabständen wiederholt, am besten mit einer oder zwei Zahlen beschreiben kann. Der Prozess hat eine hohe Wiederholungsrate, ein gewisses dichtes Band und dann verblasst die Frequenz, und es kann sein, dass für etwa 15 % des beobachteten Intervalls kein Signal vorhanden ist. Ziel ist es, festzustellen, ob in irgendeinem Teil des Beobachtungszeitraums keine kritische (70 Prozent) Überfüllung vorliegt und in anderen Intervallen nicht genug Signal vorhanden ist, d. h. je näher an einer Gleichverteilung, desto besser, aber die Art des Signals selbst ist weit von einer Gleichverteilung entfernt (denke ich).

 
Aleksey Vyazmikin:

Ich verstehe nicht ganz - wird der Sinus oder der Kosinus nach dem Ermessen des Benutzers ermittelt?

pi - hast du es aus der Bibliothek oder ist es nur auf ein bestimmtes Zeichen genau, welches - du schreibst besser hier die Konstante, die du eingestellt hast.

Sie haben CATboost 😑 markieren Sie einfach die Merkmale als kategorisch