Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 1783

 
Maxim Dmitrievsky:

Wenn es sich um Cluster handelt, müssen Sie nur die Statistiken über die neuen Daten ausfegen. Wenn sie gleich sind, können Sie TC bauen.

Parameter auf der Leiste. Die Inkremente, Geschwindigkeiten, historischen Durchschnittswerte. Ich verstehe nicht, warum jeder den letzten vollen Takt als Parameter ansieht, aber das ist im Grunde falsch. Die Durchschnittswerte liegen um die Hälfte oder etwas weniger als die Mittelungsspanne zurück, und die Abstufungen sind nicht signifikant genug. Und niemand zählt die Parameter der Serie als Ganzes. Die beiden Abstufungen "flach" und "Trend" sind nicht einmal lustig.
 
Maxim Dmitrievsky:

Wenn die Cluster die gleichen sind, können Sie TCs bauen. Wenn sie gleich sind, können wir TC bauen.

Der Themenbereich der Cluster und Statistiken muss klar verstanden werden. Wenn sie bei allen Instrumenten von '70 bis '20 identisch ist, dann ist es möglich))

 
mytarmailS:

Die Catbust wird nicht helfen, das Problem ist die Größe der Daten, ich werde nicht einmal in der Lage sein, Traits zu erstellen, Sie werden nicht einmal zum Training kommen...

Machen Sie eine Stichprobe von 50k, lassen Sie es klein sein, lassen Sie es nicht ernsthaft sein, lassen Sie es eher möglich sein, zu übertrainieren, .... ..., ... Das Ziel ist es, einen Roboter für die Produktion zu schaffen, aber nur, um den Fehler durch gemeinsame Anstrengungen zu reduzieren, und dann könnten die gewonnenen Erkenntnisse auf jedes Werkzeug und jeden Markt angewendet werden, 50 K werden ausreichen, um zu sehen, welche Zeichen etwas bedeuten.

Okay, ich werde eine kleine Stichprobe machen.

mytarmailS:

Wenn man OHLK nicht kennt, braucht man es nicht zu schreiben, warum sollte man das ganze OHLK verschieben? Das macht niemand, man muss nur ZZ um einen Schritt verschieben, als ob man zum Lernen um einen Schritt in die Zukunft schaut und das ist alles. Haben Sie wenigstens einen Artikel von Vladimir Perervenko über deerelearning gelesen? Bitte lesen Sie ihn. Es ist sehr unangenehm, wenn sich optimale Aktionen mit Daten eingebürgert haben und jeder daran gewöhnt ist, und jemand versucht, das Gleiche zu tun, aber auf eine andere Art und Weise, es ist irgendwie sinnlos und ärgerlich und verursacht viele Fehler bei Leuten, die versuchen, mit den Daten eines solchen Autors zu arbeiten.

Ich lese seine Artikel, aber ich verstehe den R-Code nicht, so dass ich nicht wirklich alles verstehen kann.

Deshalb frage ich Sie, da Sie das Problem verstehen. Die Klassifizierung erfolgt auf dem Null-Balken, wenn nur der Eröffnungskurs bekannt ist. So wie ich es verstehe, verwenden Sie nicht den Eröffnungskurs des Null-Balkens, sondern nur die Informationen des ersten Balkens und später? Das Ziel bestimmt nämlich den ZZ-Vektor auf dem Nullbalken? Ich verstehe, dass der Vektor des nächsten Balkens vorhergesagt wurde - das ist aber nicht wesentlich, oder? Sonst muss ich wieder viel nacharbeiten - das ist anstrengend.

Ich habe nur eine fertige Lösung für die Erfassung von Daten und die Anwendung des Modells, kein Berechnungsmodell.

mytarmailS:

Wenn Sie nach all dem immer noch etwas tun wollen, habe ich folgende Anforderungen

1) die Daten 50-60k nicht mehr, vorzugsweise eine Datei, nur vereinbaren, dass die n der letzten Kerze wird der Test sein

2) Die Daten, vorzugsweise ohne Kleber, so dass nicht nur die neuesten Preise berücksichtigt werden können, sondern auch Unterstützung und Widerstand, was mit Kleber unmöglich ist

3) das Ziel sollte bereits in den Daten enthalten sein

4) Daten im Format Datum,Zeit,o,h,l,c, Ziel


Oder soll ich einen Datensatz erstellen?

Das können Sie von denen verlangen, die sich verpflichtet haben - also nicht von mir :) Lassen Sie uns einen Deal machen.

1. Wir nehmen 50 für das Training und weitere 50 für den Test (Stichproben außerhalb des Trainings).

2. ok.

3. ok.

4 OK.

Hinzugefügt: Es wurde festgestellt, dass die Si-3.20-Futures nicht genug normale Stäbe (22793) haben und man nicht kleben will.


Ich habe eine Probe des Bernsteins hinzugefügt - ich habe eine Genauigkeit von 67.

Dateien:
Setup.zip  891 kb
 
Aleksey Vyazmikin:

Ich werde Sie also fragen, da Sie das herausgefunden haben. Die Klassifizierung erfolgt auf dem Null-Balken, wenn nur der Eröffnungskurs bekannt ist. Wie ich verstanden habe, verwenden Sie nicht den Eröffnungskurs des Null-Balkens, sondern nur die Informationen von Balken 1 und später? Das Ziel bestimmt nämlich den ZZ-Vektor auf dem Nullbalken? Ich verstehe, dass der Vektor des nächsten Balkens vorhergesagt wurde - das ist aber nicht wesentlich, oder? Andernfalls muss wieder ein Haufen Nacharbeit geleistet werden - lästig.

Die Klassifizierung erfolgt auf dem letzten Balken, wo die bekannte Klausel (d.h. eine vollwertige OHLS-Kerze), wir das ZZ-Zeichen einer zukünftigen Kerze vorhersagen. Warum die Kerze berücksichtigen, deren einzige bekannte Option ich nicht verstehen kann, was ist der Vorteil außer der Komplexität ? sowohl im Verständnis als auch in der Umsetzung, und wenn Sie verstehen, dass die Option[i] fast immer gleich der Klausel[i-1] ist, dann habe ich nur ein Fragezeichen für diesen Ansatz


Aleksey Vyazmikin:

Das können Sie von denen verlangen, die sich verpflichtet haben - also nicht von mir :) Lassen Sie uns zu einer Einigung kommen.

Ich verlange nichts von Ihnen persönlich.) Voraussetzung für die Stichprobe ist, dass die Stichprobe für alle gleich ist, damit etwas verglichen werden kann, oder? Ich denke, das ist offensichtlich.


Und danke fürs Zuhören )

1) Daten 50-60k nicht mehr, vorzugsweise eine Datei.........

Nehmen wir 50 für die Ausbildung und weitere 50 für den Test (Stichprobe außerhalb der Ausbildung).

Ich dachte, 50-60k vielleicht aus Neugier, warum nicht verdoppeln? )))

)))

1) Daten 50-60k nicht mehr, besser eine Datei, nur zustimmen

Und vielen Dank, dass Sie eine statt zwei Dateien ausgefüllt haben! ))
 

Ich habe es zuerst ausprobiert, sozusagen "out of the box"...

Nur die letzten n Werte sind an der Vorhersage beteiligt, wie bei Ihnen, denn der Fehler ist derselbe.

Ich habe 217 Indikatoren, ich bin sicher, dass es einige Redundanzen gibt, aber ich bin zu faul, sie zu bereinigen.

Ich habe die DateiOHLC_Train.csv zum Trainieren und Validieren von insgesamt 54147


das Modell an den ersten 10k Beobachtungen getestet (um genau zu sein, 8k, die ersten 2k wurden nicht berücksichtigt, da die Indikatoren an ihnen berechnet wurden)

das Modell mit den verbleibenden 44k Daten getestet, so dass ich denke, dass es keine Nachschulung gibt. 5,5 mal trainieren 44/8 =5,5


Von den Modellen habe ich Boosting und Forrest ausprobiert, Boosting war nicht beeindruckt und ich habe bei Forrest aufgehört.

in der Ausbildung ein starkes Ungleichgewicht Klassen gesetzt, aber ich bin zu faul, um Schamanen

table(d$Target[tr])

   0    1 
3335 4666 

endgültiges Modell zu den aktuellen Merkmalen - Wald 200 Bäume

auf dem Tablett...

 Type of random forest: classification
                     Number of trees: 200
No. of variables tried at each split: 14

        OOB estimate of  error rate: 14.75%
Confusion matrix:
     0    1 class.error
0 2557  778  0.23328336
1  402 4264  0.08615517

auf dem Prüfstand

Confusion Matrix and Statistics

          Reference
Prediction     0     1
         0 12449  5303
         1  9260 17135
                                          
               Accuracy : 0.6701          
                 95% CI : (0.6657, 0.6745)
    No Information Rate : 0.5083          
    P-Value [Acc > NIR] : < 2.2e-16       
                                          
                  Kappa : 0.3381          
                                          
 Mcnemar's Test P-Value : < 2.2e-16       
                                          
            Sensitivity : 0.5734          
            Specificity : 0.7637          
         Pos Pred Value : 0.7013          
         Neg Pred Value : 0.6492          
             Prevalence : 0.4917          
         Detection Rate : 0.2820          
   Detection Prevalence : 0.4021          
      Balanced Accuracy : 0.6686          
                                          
       'Positive' Class : 0  

Wie Sie sehen können, sind die Ergebnisse identisch mit den Ihren, und es werden nicht Millionen von Daten benötigt. 50k reichen aus, um ein Muster zu finden, wenn überhaupt.

Wir haben also die gleichen Ergebnisse, das ist unser Ausgangspunkt, jetzt muss dieser Fehler verbessert werden

 

)) Hohma ))

Alle so genannten Indikatoren für die technische Analyse wurden entfernt.

Es gibt 86 Indikatoren, nicht 217 wie im obigen Beispiel

Und die Qualität des Modells hat sich noch verbessert.)


Confusion Matrix and Statistics

          Reference
Prediction     0     1
         0 12769  5597
         1  8940 16841
                                          
               Accuracy : 0.6707          
                 95% CI : (0.6663, 0.6751)
    No Information Rate : 0.5083          
    P-Value [Acc > NIR] : < 2.2e-16       
                                          
                  Kappa : 0.3396          
                                          
 Mcnemar's Test P-Value : < 2.2e-16       
                                          
            Sensitivity : 0.5882          
            Specificity : 0.7506          
         Pos Pred Value : 0.6953          
         Neg Pred Value : 0.6532          
             Prevalence : 0.4917          
         Detection Rate : 0.2892          
   Detection Prevalence : 0.4160          
      Balanced Accuracy : 0.6694          
                                          
       'Positive' Class : 0 
 
mytarmailS:

Die Klassifizierung erfolgt auf der letzten Bar, wo die bekannte Klausel (die vollwertige OHLS Kerze), das Zeichen ZZ Zukunft Kerze vorherzusagen. Warum die Kerze berücksichtigen, deren einzige bekannte Option ich nicht verstehen kann, was ist der Vorteil außer der Komplexität? sowohl im Verständnis als auch in der Umsetzung, und wenn Sie verstehen, dass die Option[i] fast immer gleich der Klausel[i-1] ist, dann habe ich nur ein Fragezeichen für diesen Ansatz

Sie können es nicht verstehen, weil Sie Daten in R haben und das Terminal nicht weiß, wann OHLC auf dem aktuellen Balken gebildet wird, so dass Sie OHLC nur auf dem Null-Balken vom ersten Balken erhalten können. Nun Offen auf dem Nullbalken sind neue Zeitdaten - besonders relevant für große TFs, weil ich eine Klasse von gleichen Prädiktoren in meiner Stichprobe habe, die aber auf verschiedene TFs angewendet werden.


mytarmailS:


1) Daten 50-60k nicht mehr, vorzugsweise eine Datei.........

Geben wir 50 für die Ausbildung und weitere 50 für den Test (Probe außerhalb der Ausbildung).

Ich habe wahrscheinlich gerade 50-60k genannt, warum sollte ich sie nicht verdoppeln? )))

)))

1) Daten 50-60k nicht mehr, eine Datei ist besser, nur zustimmen

Und vielen Dank, dass Sie eine statt zwei Dateien ausgefüllt haben! ))
mytarmailS:

trainiert und validiert an der DateiOHLC_Train.csv insgesamt 54147

das Modell an den ersten 10k Beobachtungen getestet (um genau zu sein, 8k, die ersten 2k wurden nicht berücksichtigt, da sie zur Berechnung der Indikatoren verwendet wurden)

das Modell mit den verbleibenden 44k Daten getestet, so dass ich denke, dass es keine Umschulung gibt. der Test ist 5,5 mal mehr Zug 44/8 =5,5

Wie Sie sehen können, sind die Ergebnisse identisch mit Ihren, und ich brauche nicht Millionen von Daten. 50k reichen aus, um die Muster zu finden, wenn überhaupt.

Wir haben also die gleichen Ergebnisse, das ist unser Ausgangspunkt, jetzt muss dieser Fehler verbessert werden

Ich habe das Beispiel in zwei Dateien aufgeteilt, die erste Datei für etwaige verdrehte Lernversuche und die zweite für die Überprüfung der Lernergebnisse.

Haben Sie nicht die Möglichkeit, das Modell zu speichern und es mit den neuen Daten zu testen? Wenn ja, überprüfen Sie es bitte, ich habe das Ergebnis für das Beispiel OHLC_Exam.csv angegeben

Können Sie diese beiden Dateien auf dieselbe Weise zurücksenden, wobei Sie Ihre Prädiktoren und die Spalte mit dem Klassifizierungsergebnis hinzufügen?


Was das Übertraining oder das Fehlen desselben betrifft.

Meiner Meinung nach ist das eine klare Überforderung.

 
Aleksey Vyazmikin:

Jepp... Bei neuen Daten ist alles noch trauriger (((.

Confusion Matrix and Statistics

          Reference
Prediction    0    1
         0 9215 5517
         1 3654 7787
                                          
               Accuracy : 0.6496          
                 95% CI : (0.6438, 0.6554)
    No Information Rate : 0.5083          
    P-Value [Acc > NIR] : < 2.2e-16       
                                          
                  Kappa : 0.3007          
                                          
 Mcnemar's Test P-Value : < 2.2e-16       
                                          
            Sensitivity : 0.7161          
            Specificity : 0.5853          
         Pos Pred Value : 0.6255          
         Neg Pred Value : 0.6806          
             Prevalence : 0.4917          
         Detection Rate : 0.3521          
   Detection Prevalence : 0.5629          
      Balanced Accuracy : 0.6507          
                                          
       'Positive' Class : 0


Hier sind die Dateien, verwenden Sie NICHT die ersten 2k Strings in der Schublade

im Test die ersten 100 Zeilen

UPD====

die Dateien nicht passen, senden Sie mir bitte eine E-Mail in Ihrem Posteingang

 
mytarmailS:

Jepp... Mit den neuen Daten ist alles noch trauriger (((


Hier sind die Dateien, verwenden Sie NICHT die ersten 2k Zeilen in der Spur

im Test die ersten 100 Zeilen.

In der Anwendung sind keine Dateien vorhanden.

Ich habe die Stichprobenaufteilung für Training und Validierung geändert, für die Validierung habe ich alle 5 Zeilen genommen, was zu einem lustigen Diagramm führte

Für das Beispiel OHLC_Exam.csv Genauigkeit 0,63


Bei X verschlechtert jeder neue Baum das Ergebnis, was auf ein Übertraining aufgrund unzureichender Beispiele in der Stichprobe hinweist.

Komprimieren Sie die Datei mit einer Zip-Datei.
 
Aleksey Vyazmikin:

In der Anwendung sind keine Dateien vorhanden.

Ich habe die Stichprobenaufteilung für Training und Validierung geändert, für die Validierung habe ich alle 5 Zeilen genommen und ein lustiges Diagramm erhalten

Am Beispiel OHLC_Exam.csv Genauigkeit 0,63


Bei X verschlechtert jeder neue Baum das Ergebnis, was auf ein Übertraining aufgrund unzureichender Beispiele in der Stichprobe hinweist.

Komprimieren Sie die Datei mit einer Zip-Datei.

Ja, ja, unsere Models sind übertrainiert...

Hier ist ein Link zum Herunterladen der Dateien, selbst die komprimierte Datei passt nicht ins Forum

https://dropmefiles.com.ua/56CDZB


Versuchen Sie das Modell auf meinen Schildern, ich frage mich, was Genauigkeit sein wird