Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2113

 
Maxim Dmitrievsky:

там не X, y а data_X, data_y

cc = ClusterCentroids(random_state=0)
x_resampled, y_resampled = cc.fit_resample(data_X, data_y)
NameError                                 Traceback (most recent call last)
<ipython-input-7-29177f78bed3> in <module>()
      1 cc = ClusterCentroids(random_state=0)
----> 2 x_resampled, y_resampled = cc.fit_resample(data_X, data_y)

NameError: name 'data_X' is not defined
 
Aleksey Vyazmikin:

Алексей... )))

датасет надо загрузить и выполнить все шаги в ноутбуке. То, что там сейчас распечатано - это сохраненная инфа, эти объекты уже не существуют

 
Maxim Dmitrievsky:

Алексей... )))

датасет надо загрузить и выполнить все шаги в ноутбуке. То, что там сейчас распечатано - это сохраненная инфа, эти объекты уже не существуют

А архив можно загрузить и разархивировать там?

 
Aleksey Vyazmikin:

А архив можно загрузить и разархивировать там?

https://stackoverflow.com/questions/3451111/unzipping-files-in-python я с телефона. Если не получится завтра сделаю. Ещё архив можно загрузить на Гугл диск 1 раз, а потом копировать в Гугл колаб. Если интернет плохой. Можно сразу зипы открывать. https://stackoverflow.com/questions/18885175/read-a-zipped-file-as-a-pandas-dataframe. И сохранять https://www.google.ru/amp/s/cmdlinetips.com/2020/05/how-to-save-pandas-dataframe-as-gzip-zip-file/amp/
 
Maxim Dmitrievsky:
https://stackoverflow.com/questions/3451111/unzipping-files-in-python я с телефона. Если не получится завтра сделаю. Ещё архив можно загрузить на Гугл диск 1 раз, а потом копировать в Гугл колаб. Если интернет плохой. Можно сразу зипы открывать. https://stackoverflow.com/questions/18885175/read-a-zipped-file-as-a-pandas-dataframe. И сохранять https://www.google.ru/amp/s/cmdlinetips.com/2020/05/how-to-save-pandas-dataframe-as-gzip-zip-file/amp/

Пока ничего не вышло - завтра ещё попробую.

 
Aleksey Vyazmikin:

Пока ничего не вышло - завтра ещё попробую.

чтение

data = pd.read_csv('exam.zip', sep=';')

запись

to_save.to_csv('oversamled_exam.zip', sep = ';'

               compression=dict(method='zip', archive_name='exam.csv'))


обновил ноутбук

 
Maxim Dmitrievsky:

чтение

data = pd.read_csv('exam.zip', sep=';')

запись

to_save.to_csv('oversamled_exam.zip', sep = ';'

               compression=dict(method='zip', archive_name='exam.csv'))


обновил ноутбук

Спасибо! Всё получилось.

Я вот думаю, что правильно - только train преобразовывать, ведь на test просто идет контроль - так и сделал, но результат очень странный - ошибка logloss переваливает за 1 на тестовой выборке и растет - как такое может вообще быть - я в шоке.

 

Максим, а вот эту штуку как настроить?

from imblearn.under_sampling import TomekLinks

tl = TomekLinks(return_indices=True, ratio='majority')
X_tl, y_tl, id_tl = tl.fit_sample(X, y)

Что есть id_tl  ?

 
Aleksey Vyazmikin:

Максим, а вот эту штуку как настроить?

Что есть id_tl  ?

не знаю, нужна ссыль

наверное, айдишники трансформированных примеров просто

 
Aleksey Vyazmikin:

Спасибо! Всё получилось.

Я вот думаю, что правильно - только train преобразовывать, ведь на test просто идет контроль - так и сделал, но результат очень странный - ошибка logloss переваливает за 1 на тестовой выборке и растет - как такое может вообще быть - я в шоке.

можно по разному попробовать, чисто позырить

вот хороший ноутбук https://www.kaggle.com/rafjaa/resampling-strategies-for-imbalanced-datasets

можно копировать и проверять

Resampling strategies for imbalanced datasets
Resampling strategies for imbalanced datasets
  • www.kaggle.com
Explore and run machine learning code with Kaggle Notebooks | Using data from Porto Seguro’s Safe Driver Prediction
Причина обращения: