交易中的机器学习：理论、模型、实践和算法交易

Aleksey Vyazmikin 2020.11.12 14:42 #21121

Maxim Dmitrievsky:

我更喜欢 "近失"（从图片上看）。

图片很好 - 但你必须尝试。

Maxim Dmitrievsky 2020.11.12 14:48 #21122

Aleksey Vyazmikin:

我一定是改错了--它在打架。

请检查有什么问题。

不是X，Y，而是data_X，data_y。

如果你使用欠抽样（减少大类的样本数），你最好收集大量的数据，否则输出会太小（按小类的大小）。

Aleksey Vyazmikin 2020.11.12 17:44 #21123

Maxim Dmitrievsky:

它不是X，Y，而是data_X，data_y。

cc = ClusterCentroids(random_state=0)
x_resampled, y_resampled = cc.fit_resample(data_X, data_y)

NameError                                 Traceback (most recent call last)
<ipython-input-7-29177f78bed3> in <module>()
      1 cc = ClusterCentroids(random_state=0)
----> 2 x_resampled, y_resampled = cc.fit_resample(data_X, data_y)

NameError: name 'data_X' is not defined

Maxim Dmitrievsky 2020.11.12 17:55 #21124

Aleksey Vyazmikin:

阿列克谢...)))

应下载数据集，所有步骤都应在笔记本上进行。现在印在那里的是存储的信息，这些对象不再存在了。

Aleksey Vyazmikin 2020.11.12 18:19 #21125

Maxim Dmitrievsky:

阿列克谢...)))

需要加载数据集，并且需要完成笔记本电脑中的所有步骤。现在印在那里的是存储的信息，这些对象已经不存在了。

而档案可以在那里下载和解压？

Maxim Dmitrievsky 2020.11.12 18:37 #21126

Aleksey Vyazmikin:

档案可以在那里下载和解压吗？

https://stackoverflow.com/questions/3451111/unzipping-files-in-python 我在用手机。如果明天不起作用，也可以。你也可以将档案下载到谷歌磁盘一次，然后复制到GoogleClub。如果你有一个坏的互联网连接。你可以一次性打开拉链。https://stackoverflow.com/questions/18885175/read-a-zipped-file-as-a-pandas-dataframe。并保存https://www.google.ru/amp/s/cmdlinetips.com/2020/05/how-to-save-pandas-dataframe-as-gzip-zip-file/amp/

Aleksey Vyazmikin 2020.11.12 23:33 #21127

Maxim Dmitrievsky:
https://stackoverflow.com/questions/3451111/unzipping-files-in-python 我在用手机。如果我明天不能来。你也可以把档案下载到google disk一次，然后把它复制到google colab。如果你有一个坏的互联网连接。你可以一次性打开拉链。https://stackoverflow.com/questions/18885175/read-a-zipped-file-as-a-pandas-dataframe。并保存https://www.google.ru/amp/s/cmdlinetips.com/2020/05/how-to-save-pandas-dataframe-as-gzip-zip-file/amp/

到目前为止没有任何效果--我明天会再试。

Maxim Dmitrievsky 2020.11.13 08:06 #21128

Aleksey Vyazmikin:

到目前为止还没有成功--我明天再试试。

阅读

data = pd.read_csv('exam.zip', sep=';')

写

to_save.to_csv('oversamled_exam.zip', sep =';',

compression=dict(method='zip', archive_name='exam.csv'))

升级了笔记本电脑

Aleksey Vyazmikin 2020.11.13 15:08 #21129

Maxim Dmitrievsky:

阅读

data = pd.read_csv('exam.zip', sep=';')

写

to_save.to_csv('oversamled_exam.zip', sep =';',

compression=dict(method='zip', archive_name='exam.csv'))

更新的笔记本电脑

谢谢你!这一切都成功了。

我想我是对的--只有训练转换，因为在测试时只需要控制--所以我做了，但结果非常奇怪--在测试样本上错误的logloss超过了1，而且还在增加--怎么可能--我很震惊。

Aleksey Vyazmikin 2020.11.13 15:20 #21130

马克西姆，你是如何设置这个东西的？

from imblearn.under_sampling import TomekLinks

tl = TomekLinks(return_indices=True, ratio='majority')
X_tl, y_tl, id_tl = tl.fit_sample(X, y)

什么是id_tl？

交易中的机器学习：理论、模型、实践和算法交易 - 页 2113