交易中的机器学习:理论、模型、实践和算法交易 - 页 2113

 
Maxim Dmitrievsky:


我更喜欢 "近失"(从图片上看)。

图片很好 - 但你必须尝试。

 
Aleksey Vyazmikin:

我一定是改错了--它在打架。

请检查有什么问题。

不是X,Y,而是data_X,data_y。

如果你使用欠抽样(减少大类的样本数),你最好收集大量的数据,否则输出会太小(按小类的大小)。

 
Maxim Dmitrievsky:

它不是X,Y,而是data_X,data_y。

cc = ClusterCentroids(random_state=0)
x_resampled, y_resampled = cc.fit_resample(data_X, data_y)
NameError                                 Traceback (most recent call last)
<ipython-input-7-29177f78bed3> in <module>()
      1 cc = ClusterCentroids(random_state=0)
----> 2 x_resampled, y_resampled = cc.fit_resample(data_X, data_y)

NameError: name 'data_X' is not defined
 
Aleksey Vyazmikin:

阿列克谢...)))

应下载数据集,所有步骤都应在笔记本上进行。现在印在那里的是存储的信息,这些对象不再存在了。

 
Maxim Dmitrievsky:

阿列克谢...)))

需要加载数据集,并且需要完成笔记本电脑中的所有步骤。现在印在那里的是存储的信息,这些对象已经不存在了。

而档案可以在那里下载和解压?

 
Aleksey Vyazmikin:

档案可以在那里下载和解压吗?

https://stackoverflow.com/questions/3451111/unzipping-files-in-python 我在 用手机。如果明天不起作用,也可以。你也可以将档案下载到谷歌磁盘一次,然后复制到GoogleClub。如果你有一个坏的互联网连接。你可以一次性打开拉链。https://stackoverflow.com/questions/18885175/read-a-zipped-file-as-a-pandas-dataframe。 并保存https://www.google.ru/amp/s/cmdlinetips.com/2020/05/how-to-save-pandas-dataframe-as-gzip-zip-file/amp/
 
Maxim Dmitrievsky:
https://stackoverflow.com/questions/3451111/unzipping-files-in-python 我在 用手机。如果我明天不能来。你也可以把档案下载到google disk一次,然后把它复制到google colab。如果你有一个坏的互联网连接。你可以一次性打开拉链。https://stackoverflow.com/questions/18885175/read-a-zipped-file-as-a-pandas-dataframe。 并保存https://www.google.ru/amp/s/cmdlinetips.com/2020/05/how-to-save-pandas-dataframe-as-gzip-zip-file/amp/

到目前为止没有任何效果--我明天会再试。

 
Aleksey Vyazmikin:

到目前为止还没有成功--我明天再试试。

阅读

data = pd.read_csv('exam.zip', sep=';')

to_save.to_csv('oversamled_exam.zip', sep =';',

compression=dict(method='zip', archive_name='exam.csv'))


升级了笔记本电脑

 
Maxim Dmitrievsky:

阅读

data = pd.read_csv('exam.zip', sep=';')

to_save.to_csv('oversamled_exam.zip', sep =';',

compression=dict(method='zip', archive_name='exam.csv'))


更新的笔记本电脑

谢谢你!这一切都成功了。

我想我是对的--只有训练转换,因为在测试时只需要控制--所以我做了,但结果非常奇怪--在测试样本上错误的logloss超过了1,而且还在增加--怎么可能--我很震惊。

 

马克西姆,你是如何设置这个东西的?

from imblearn.under_sampling import TomekLinks

tl = TomekLinks(return_indices=True, ratio='majority')
X_tl, y_tl, id_tl = tl.fit_sample(X, y)

什么是id_tl?