交易中的机器学习:理论、模型、实践和算法交易 - 页 2800

 
mytarmailS #:

这不是对模型提出的问题,而是对数据集作者提出的问题。

第一类的概率超过 30%。是的,可以,我不觉得有什么问题。找到一个更有可能预测出 "1 "而不是 "0 "的规则/列表就足够了,哪怕很少。

此外,没有人阻止通过平衡类别来改变数据集。
 
Aleksey Vyazmikin #:

头等舱的比例超过 30%。也许吧,我不觉得有什么问题。找到一个更有可能预测 "1 "而不是 "0 "的规则/列表就足够 了,尽管很少。

此外,没有人能通过平衡类别来改变数据集。

你在抱怨 catbust,而 catbust 并不是一个 tree\rule\list.

 
只有 NS 需要平衡。木制模型不需要平衡。
 
mytarmailS #:

你抱怨的是猫炮,而猫炮不是木头。

我抱怨的不是算法,算法就是算法,我抱怨的是用已经咀嚼过的数据来喂养算法会更好。

早些时候,您以某种方式理解了...

关于交易、自动交易系统和交易策略测试的论坛。

交易中的机器学习:理论、模型、实践和算法交易

mytarmailS, 2016.10.29 11:22 pm.

假设情况....

我们有 100 个潜在的预测因子,为便于解释,让它们成为指标。

让我们设想一下,最初我们知道在所有这些预测指标中只有一种情况是有利可图的,那就是当 RSI 穿过 90 且随机指标刚刚低于零时(当然是从天花板上看的情况)这种情况下,价格下跌的概率为 90%所有其他预测 因子都是完全噪音,RSI 和随机预测因子中的所有其他情况 也都是完全噪音,有成百上千种不同的情况。...

因此,在 99.9% 的噪音中,我们只有约 0.01% 的有用信号。

假设你的方法奇迹般地剔除了所有 98 个预测因子,只剩下两个--RSI 和随机指标。

在 RSI 中,有数百种情况:RSI>0、RSI>13、RSI<85、RSI=0、RSI<145、.............。由于您训练 MO 识别所有价格走势,MO 将考虑 RSI 和随机指标中存在的所有可能 情况来建立模型,而 这些情况下,这些模型起作用的概率几乎为零,但 MO 不得不考虑这些 情况,并在此基础上建立一些模型,尽管事实上这是真正的噪音,而这一个起作用的情况只会在成百上千个其他解决方案中消失,这就是再训练.....。

你最后是怎么做到的?


请说明模型表示法和目标比例与此有什么关系。我是说,模型可以用现代化的表格--规则来表示。

 
elibrarius #:
只有 NS 需要平衡。树状模型不需要平衡。

这是对良好数据的要求,在任何情况下,算法内部的计数器都会工作,并就分配目标的数量做出决定......

 
Aleksey Vyazmikin #:

这里的特殊之处在于,CatBoost 模型倾向于将所有示例分配给小于 0.5 的概率--因此它不会将目标分类为 "1",而介于 0 和 0.5 之间的概率分布也不是很好。

如果我们有 100 个目标示例,其中有 5 个标签("A")和 95 个标签("B")。

那么模型给出的标签 "A "的概率就不可能大于 0.5。

某些单条规则 中, 它可以,但帖子中说的是 catbust,而这是一个模型 (规则预测的总和),不是单条规则,总和不会有这么高的概率。


即使模型确定是标记 "A"。标记 "A "的规则概率之和也会被 "B "的规则概率之和推翻,因为 "B "的规则概率要大得多。

 
elibrarius #:
只有 NS 需要平衡。木制模型不需要平衡。

https://stats.stackexchange.com/questions/340854/random-forest-for-imbalanced-data

random forest for imbalanced data?
random forest for imbalanced data?
  • 2018.04.16
  • MSilvy MSilvy 139 1 1 silver badge 8 8 bronze badges
  • stats.stackexchange.com
I have a dataset where yes=77 and no=16000, a highly imbalanced dataset. My plan was to identify the most important variables influencing the response variable using random forest and then develop a logistic regression model using the selected variable. I am planning to use...
 
mytarmailS #:

如果每 100 个目标示例有 5 分("A")和 95 分("B"),则

那么模型给出标签 "A "的概率就不可能大于 0.5

某些单条规则 可以,但帖子中说的是 "猫扑",而这是一个模型 (规则预测的总和),不是单条规则,总和不会有这么高的概率。


即使模型确定是标记 "A"。标记 "A "的规则的概率之和会被 "B "的规则之和预测过高,因为 "B "的规则要大得多。

这完全取决于模型中的预测因子和树的数量。

我并不坚持使用 CatBoost 模型进行训练。

 

https://www.mql5.com/ru/blogs/post/723619

16000 个例子中有 77 个太少了。77 个例子很难具有代表性。
唯一的选择就是深入研究这棵树。

Нужна ли деревьям и лесам балансировка по классам?
Нужна ли деревьям и лесам балансировка по классам?
  • www.mql5.com
Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015 там есть несколько страниц посвященных этой теме. Вот итоговая: Отмеченный
 
elibrarius #:

https://www.mql5.com/ru/blogs/post/723619

16000 个例子中有 77 个太少了。77 个例子很难具有代表性。
唯一的选择就是深入研究这棵树。

这本书怎么样?