交易中的机器学习：理论、模型、实践和算法交易

Aleksey Vyazmikin 2022.10.24 10:59 #27991

mytarmailS #:

这不是对模型提出的问题，而是对数据集作者提出的问题。

第一类的概率超过 30%。是的，可以，我不觉得有什么问题。找到一个更有可能预测出 "1 "而不是 "0 "的规则/列表就足够了，哪怕很少。

此外，没有人阻止通过平衡类别来改变数据集。

mytarmailS 2022.10.24 11:16 #27992

Aleksey Vyazmikin #:

头等舱的比例超过 30%。也许吧，我不觉得有什么问题。找到一个更有可能预测 "1 "而不是 "0 "的规则/列表就足够 了，尽管很少。

此外，没有人能通过平衡类别来改变数据集。

你在抱怨 catbust，而 catbust 并不是一个 tree\rule\list.

Forester 2022.10.24 11:32 #27993

只有 NS 需要平衡。木制模型不需要平衡。

Aleksey Vyazmikin 2022.10.24 11:38 #27994

mytarmailS #:

你抱怨的是猫炮，而猫炮不是木头。

我抱怨的不是算法，算法就是算法，我抱怨的是用已经咀嚼过的数据来喂养算法会更好。

早些时候，您以某种方式理解了...

关于交易、自动交易系统和交易策略测试的论坛。

交易中的机器学习：理论、模型、实践和算法交易

mytarmailS, 2016.10.29 11:22 pm.

假设情况....

我们有 100 个潜在的预测因子，为便于解释，让它们成为指标。

让我们设想一下，最初我们知道在所有这些预测指标中只有一种情况是有利可图的，那就是当 RSI 穿过 90 且随机指标刚刚低于零时（当然是从天花板上看的情况）、在这种情况下，价格下跌的概率为 90%，所有其他预测因子都是完全噪音，RSI 和随机预测因子中的所有其他情况也都是完全噪音，有成百上千种不同的情况。...

因此，在 99.9% 的噪音中，我们只有约 0.01% 的有用信号。

假设你的方法奇迹般地剔除了所有 98 个预测因子，只剩下两个--RSI 和随机指标。

在 RSI 中，有数百种情况：RSI>0、RSI>13、RSI<85、RSI=0、RSI<145、.............。由于您训练 MO 识别所有价格走势，MO 将考虑 RSI 和随机指标中存在的所有可能 情况来建立模型，而在这些情况下，这些模型起作用的概率几乎为零，但 MO 不得不考虑这些情况，并在此基础上建立一些模型，尽管事实上这是真正的噪音，而这一个起作用的情况只会在成百上千个其他解决方案中消失，这就是再训练.....。

你最后是怎么做到的？

请说明模型表示法和目标比例与此有什么关系。我是说，模型可以用现代化的表格--规则来表示。

Aleksey Vyazmikin 2022.10.24 11:41 #27995

elibrarius #:
只有 NS 需要平衡。树状模型不需要平衡。

这是对良好数据的要求，在任何情况下，算法内部的计数器都会工作，并就分配目标的数量做出决定......

mytarmailS 2022.10.24 11:56 #27996

Aleksey Vyazmikin #:

这里的特殊之处在于，CatBoost 模型倾向于将所有示例分配给小于 0.5 的概率--因此它不会将目标分类为 "1"，而介于 0 和 0.5 之间的概率分布也不是很好。

如果我们有 100 个目标示例，其中有 5 个标签（"A"）和 95 个标签（"B"）。

那么模型给出的标签 "A "的概率就不可能大于 0.5。

在 某些单条规则 中， 它可以，但帖子中说的是 catbust，而这是一个模型 （规则预测的总和），不是单条规则，总和不会有这么高的概率。

即使模型确定是标记 "A"。标记 "A "的规则概率之和也会被 "B "的规则概率之和推翻，因为 "B "的规则概率要大得多。

mytarmailS 2022.10.24 12:10 #27997

elibrarius #:
只有 NS 需要平衡。木制模型不需要平衡。

https://stats.stackexchange.com/questions/340854/random-forest-for-imbalanced-data

random forest for imbalanced data?

2018.04.16
MSilvy MSilvy 139 1 1 silver badge 8 8 bronze badges
stats.stackexchange.com

I have a dataset where yes=77 and no=16000, a highly imbalanced dataset. My plan was to identify the most important variables influencing the response variable using random forest and then develop a logistic regression model using the selected variable. I am planning to use...

Aleksey Vyazmikin 2022.10.24 12:15 #27998

mytarmailS #:

如果每 100 个目标示例有 5 分（"A"）和 95 分（"B"），则

那么模型给出标签 "A "的概率就不可能大于 0.5

在 某些单条规则 中可以，但帖子中说的是 "猫扑"，而这是一个模型 （规则预测的总和），不是单条规则，总和不会有这么高的概率。

即使模型确定是标记 "A"。标记 "A "的规则的概率之和会被 "B "的规则之和预测过高，因为 "B "的规则要大得多。

这完全取决于模型中的预测因子和树的数量。

我并不坚持使用 CatBoost 模型进行训练。

Forester 2022.10.24 12:18 #27999

mytarmailS #:

https://stats.stackexchange.com/questions/340854/random-forest-for-imbalanced-data

https://www.mql5.com/ru/blogs/post/723619

16000 个例子中有 77 个太少了。77 个例子很难具有代表性。
唯一的选择就是深入研究这棵树。

Нужна ли деревьям и лесам балансировка по классам?

www.mql5.com

Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015 там есть несколько страниц посвященных этой теме. Вот итоговая: Отмеченный

mytarmailS 2022.10.24 12:35 #28000

elibrarius #:

https://www.mql5.com/ru/blogs/post/723619

16000 个例子中有 77 个太少了。77 个例子很难具有代表性。
唯一的选择就是深入研究这棵树。

这本书怎么样？

交易中的机器学习：理论、模型、实践和算法交易 - 页 2800