Попробуйте загрузить архив на Gzip-zip-file - Общее обсуждение

Aleksey Vyazmikin 2020.11.12 17:44 #21121

Maxim Dmitrievsky:

там не X, y а data_X, data_y

cc = ClusterCentroids(random_state=0)
x_resampled, y_resampled = cc.fit_resample(data_X, data_y)

NameError                                 Traceback (most recent call last)
<ipython-input-7-29177f78bed3> in <module>()
      1 cc = ClusterCentroids(random_state=0)
----> 2 x_resampled, y_resampled = cc.fit_resample(data_X, data_y)

NameError: name 'data_X' is not defined

Maxim Dmitrievsky 2020.11.12 17:55 #21122

Aleksey Vyazmikin:

Алексей... )))

датасет надо загрузить и выполнить все шаги в ноутбуке. То, что там сейчас распечатано - это сохраненная инфа, эти объекты уже не существуют

Aleksey Vyazmikin 2020.11.12 18:19 #21123

Maxim Dmitrievsky:

Алексей... )))

датасет надо загрузить и выполнить все шаги в ноутбуке. То, что там сейчас распечатано - это сохраненная инфа, эти объекты уже не существуют

А архив можно загрузить и разархивировать там?

Maxim Dmitrievsky 2020.11.12 18:37 #21124

Aleksey Vyazmikin:

А архив можно загрузить и разархивировать там?

https://stackoverflow.com/questions/3451111/unzipping-files-in-python я с телефона. Если не получится завтра сделаю. Ещё архив можно загрузить на Гугл диск 1 раз, а потом копировать в Гугл колаб. Если интернет плохой. Можно сразу зипы открывать. https://stackoverflow.com/questions/18885175/read-a-zipped-file-as-a-pandas-dataframe. И сохранять https://www.google.ru/amp/s/cmdlinetips.com/2020/05/how-to-save-pandas-dataframe-as-gzip-zip-file/amp/

Aleksey Vyazmikin 2020.11.12 23:33 #21125

Maxim Dmitrievsky:
https://stackoverflow.com/questions/3451111/unzipping-files-in-python я с телефона. Если не получится завтра сделаю. Ещё архив можно загрузить на Гугл диск 1 раз, а потом копировать в Гугл колаб. Если интернет плохой. Можно сразу зипы открывать. https://stackoverflow.com/questions/18885175/read-a-zipped-file-as-a-pandas-dataframe. И сохранять https://www.google.ru/amp/s/cmdlinetips.com/2020/05/how-to-save-pandas-dataframe-as-gzip-zip-file/amp/

Пока ничего не вышло - завтра ещё попробую.

Maxim Dmitrievsky 2020.11.13 08:06 #21126

Aleksey Vyazmikin:

Пока ничего не вышло - завтра ещё попробую.

чтение

data = pd.read_csv('exam.zip', sep=';')

запись

to_save.to_csv('oversamled_exam.zip', sep = ';',

compression=dict(method='zip', archive_name='exam.csv'))

обновил ноутбук

Aleksey Vyazmikin 2020.11.13 15:08 #21127

Maxim Dmitrievsky:

чтение

data = pd.read_csv('exam.zip', sep=';')

запись

to_save.to_csv('oversamled_exam.zip', sep = ';',

compression=dict(method='zip', archive_name='exam.csv'))

обновил ноутбук

Спасибо! Всё получилось.

Я вот думаю, что правильно - только train преобразовывать, ведь на test просто идет контроль - так и сделал, но результат очень странный - ошибка logloss переваливает за 1 на тестовой выборке и растет - как такое может вообще быть - я в шоке.

Фильтрованный Мартин Вопросы от начинающих MQL5 Максимальное значение Stop Loss

Aleksey Vyazmikin 2020.11.13 15:20 #21128

Максим, а вот эту штуку как настроить?

from imblearn.under_sampling import TomekLinks

tl = TomekLinks(return_indices=True, ratio='majority')
X_tl, y_tl, id_tl = tl.fit_sample(X, y)

Что есть id_tl ?

Maxim Dmitrievsky 2020.11.13 15:27 #21129

Aleksey Vyazmikin:

Максим, а вот эту штуку как настроить?

Что есть id_tl ?

не знаю, нужна ссыль

наверное, айдишники трансформированных примеров просто

Maxim Dmitrievsky 2020.11.13 15:27 #21130

Aleksey Vyazmikin:

Спасибо! Всё получилось.

Я вот думаю, что правильно - только train преобразовывать, ведь на test просто идет контроль - так и сделал, но результат очень странный - ошибка logloss переваливает за 1 на тестовой выборке и растет - как такое может вообще быть - я в шоке.

можно по разному попробовать, чисто позырить

вот хороший ноутбук https://www.kaggle.com/rafjaa/resampling-strategies-for-imbalanced-datasets

можно копировать и проверять

Resampling strategies for imbalanced datasets

www.kaggle.com

Explore and run machine learning code with Kaggle Notebooks | Using data from Porto Seguro’s Safe Driver Prediction

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2113