Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 2113

 
Maxim Dmitrievsky:


Eu gosto mais de Near-Miss (a partir das fotos)

As fotos são legais - mas você tem que tentar.

 
Aleksey Vyazmikin:

Devo ter mudado mal - está a lutar.

Por favor, verifique o que está errado.

não é X, y mas data_X, data_y

se usar sub-amostragem (número decrescente de amostras de classe maior), é melhor recolher muitos dados, caso contrário o resultado será muito pequeno (pelo tamanho da classe menor)

 
Maxim Dmitrievsky:

não é X, y é data_X, data_y

cc = ClusterCentroids(random_state=0)
x_resampled, y_resampled = cc.fit_resample(data_X, data_y)
NameError                                 Traceback (most recent call last)
<ipython-input-7-29177f78bed3> in <module>()
      1 cc = ClusterCentroids(random_state=0)
----> 2 x_resampled, y_resampled = cc.fit_resample(data_X, data_y)

NameError: name 'data_X' is not defined
 
Aleksey Vyazmikin:

Aleksey... )))

e todos os passos no laptop. O que é impresso lá agora é informação armazenada, estes objectos já não existem

 
Maxim Dmitrievsky:

Alexei... )))

e todos os passos no laptop precisam ser feitos. O que está lá impresso agora é informação armazenada, estes objectos já não existem

E o arquivo pode ser baixado e descompactado lá?

 
Aleksey Vyazmikin:

O arquivo pode ser baixado e descompactado lá?

https://stackoverflow.com/questions/3451111/unzipping-files-in-python Estou no meu telefone. Se não funcionar amanhã, serve. Você também pode baixar o arquivo para o disco do Google uma vez e depois copiá-lo para o GoogleClub. Se tiveres uma má ligação à Internet. Você pode abrir os zips imediatamente.https://stackoverflow.com/questions/18885175/read-a-zipped-file-as-a-pandas-dataframe. E salve https://www.google.ru/amp/s/cmdlinetips.com/2020/05/how-to-save-pandas-dataframe-as-gzip-zip-file/amp/
 
Maxim Dmitrievsky:
https://stackoverflow.com/questions/3451111/unzipping-files-in-python Estou no meu telefone. Se eu não puder ir amanhã. Você também pode baixar o arquivo para o google disk uma vez e depois copiá-lo para o google colab. Se tiveres uma má ligação à Internet. Você pode abrir os zips imediatamente.https://stackoverflow.com/questions/18885175/read-a-zipped-file-as-a-pandas-dataframe. E salve https://www.google.ru/amp/s/cmdlinetips.com/2020/05/how-to-save-pandas-dataframe-as-gzip-zip-file/amp/

Nada funcionou até agora - vou tentar novamente amanhã.

 
Aleksey Vyazmikin:

Até agora ainda não deu certo - vou tentar de novo amanhã.

leitura

data = pd.read_csv('exam.zip', sep=';')

escrever

to_save.to_csv('oversamled_examled_exam.zip', sep =';',

compression=dict(method='zip', archive_name='exam.csv'))


actualizou o computador portátil

 
Maxim Dmitrievsky:

leia

data = pd.read_csv('exam.zip', sep=';')

escrever

to_save.to_csv('oversamled_examled_exam.zip', sep =';',

compression=dict(method='zip', archive_name='exam.csv'))


laptop atualizado

Obrigado! Tudo se resolveu.

Acho que tenho razão - só treino transformar, porque no teste só vai o controle - então eu fiz, mas o resultado é muito estranho - logloss de erro excede 1 na amostra de teste e cresce - como pode ser - estou chocado.

 

Maxim, como é que se monta esta coisa?

from imblearn.under_sampling import TomekLinks

tl = TomekLinks(return_indices=True, ratio='majority')
X_tl, y_tl, id_tl = tl.fit_sample(X, y)

O que é id_tl ?