Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 2113

 
Maxim Dmitrievsky:


Mir gefällt Near-Miss besser (von den Bildern her)

Die Bilder sind schön - aber man muss sie ausprobieren.

 
Aleksey Vyazmikin:

Ich muss es falsch geändert haben - es ist ein Kampf.

Bitte prüfen Sie, was falsch ist.

es heißt nicht X, y, sondern data_X, data_y

Wenn Sie Under-Sampling verwenden (abnehmende Anzahl von Stichproben der Hauptklasse), sollten Sie besser viele Daten sammeln, da sonst das Ergebnis zu klein sein wird (gemessen an der Größe der Nebenklasse).

 
Maxim Dmitrievsky:

es heißt nicht X, y sondern data_X, data_y

cc = ClusterCentroids(random_state=0)
x_resampled, y_resampled = cc.fit_resample(data_X, data_y)
NameError                                 Traceback (most recent call last)
<ipython-input-7-29177f78bed3> in <module>()
      1 cc = ClusterCentroids(random_state=0)
----> 2 x_resampled, y_resampled = cc.fit_resample(data_X, data_y)

NameError: name 'data_X' is not defined
 
Aleksey Vyazmikin:

Aleksey ... )))

Datensatz muss geladen sein und alle Schritte im Laptop. Was dort jetzt gedruckt wird, sind gespeicherte Informationen, diese Objekte existieren nicht mehr.

 
Maxim Dmitrievsky:

Alexej... )))

Der Datensatz muss geladen werden und alle Schritte im Laptop müssen durchgeführt werden. Was dort jetzt gedruckt wird, sind gespeicherte Informationen, diese Objekte existieren nicht mehr.

Und das Archiv kann dort heruntergeladen und entpackt werden?

 
Aleksey Vyazmikin:

Kann das Archiv dort heruntergeladen und entpackt werden?

https://stackoverflow.com/questions/3451111/unzipping-files-in-python Ich bin an meinem Telefon. Wenn es nicht klappt, dann eben morgen. Sie können das Archiv auch einmal auf die Google-Festplatte herunterladen und es dann in den GoogleClub kopieren. Wenn Sie eine schlechte Internetverbindung haben. Sie können Reißverschlüsse auf einmal öffnen.https://stackoverflow.com/questions/18885175/read-a-zipped-file-as-a-pandas-dataframe. Und speichern Siehttps://www.google.ru/amp/s/cmdlinetips.com/2020/05/how-to-save-pandas-dataframe-as-gzip-zip-file/amp/
 
Maxim Dmitrievsky:
https://stackoverflow.com/questions/3451111/unzipping-files-in-python Ich bin an meinem Telefon. Wenn ich es morgen nicht schaffe. Sie können das Archiv auch einmal auf Google Disk herunterladen und dann in Google Colab kopieren. Wenn Sie eine schlechte Internetverbindung haben. Sie können Reißverschlüsse auf einmal öffnen.https://stackoverflow.com/questions/18885175/read-a-zipped-file-as-a-pandas-dataframe. Und speichern Siehttps://www.google.ru/amp/s/cmdlinetips.com/2020/05/how-to-save-pandas-dataframe-as-gzip-zip-file/amp/

Bis jetzt hat nichts funktioniert - ich werde es morgen noch einmal versuchen.

 
Aleksey Vyazmikin:

Bis jetzt hat es nicht geklappt - ich werde es morgen noch einmal versuchen.

Lesen

Daten = pd.read_csv('exam.zip', sep=';')

schreiben.

to_save.to_csv('oversamled_exam.zip', sep =';',

compression=dict(method='zip', archive_name='exam.csv'))


den Laptop aufgerüstet

 
Maxim Dmitrievsky:

lesen

Daten = pd.read_csv('exam.zip', sep=';')

schreiben.

to_save.to_csv('oversamled_exam.zip', sep =';',

compression=dict(method='zip', archive_name='exam.csv'))


aktualisierter Laptop

Ich danke Ihnen! Es hat alles geklappt.

Ich denke, ich habe es richtig - nur trainieren transformieren, weil auf Test geht nur die Kontrolle - so habe ich, aber das Ergebnis ist sehr seltsam - Fehler logloss überschreitet 1 auf Testprobe und wächst - wie kann es sein - ich bin schockiert.

 

Maxim, wie stellt man das Ding auf?

from imblearn.under_sampling import TomekLinks

tl = TomekLinks(return_indices=True, ratio='majority')
X_tl, y_tl, id_tl = tl.fit_sample(X, y)

Was ist id_tl?