结合段的范围的算法--帮助创建 - 页 7

 
Aleksey Nikolayev:

这个问题偏离了主题,颇具哲学意味。是否意识到通过将属性划分为段的分类方法意味着输出对输入的不连续依赖?也就是说,可能会出现这样的情况:交易会在一组属性处开盘,而在另一个非常非常接近第一组属性的地方不会开盘(它们接近边界,但在边界的两侧)。我并不是说这是错误的方法。我只想问--这背后是否有某种交易员的直觉,或者是一种任意的选择?

是的,从理论上讲,这是可能的。然而,分层的方法意味着在不同的预测因子上建立一组连续的树,这意味着正确的边界可以选择另一个性状(如果有统计学上的理由),因此 "误差 "被拉平了。

Aleksey Nikolayev:

作为一种可能的替代方法,可以提出通过逻辑 回归或最近邻方法进行分类。在那里,输出可以是对属于某个类别的概率的估计,例如,可以用来确定交易量。我不坚持任何特定的算法,只是对交易者选择特定MO算法的方面感兴趣。

CatBoost也给出了类成员概率的估计,但根据我的观察,它恰恰相反--对不经常出现的罕见观察结果有更大的信心,这导致它们被高估,在独立样本上,这将导致错误分类或更罕见的高指数的出现。

我为什么使用CatBoost进行交易。

1.快速算法。

2.一个现代的、不断发展的算法,在MO方面有许多进步,开箱即用。

3.在MT5中应用模型的独立方式,不需要Python和R。

 
Aleksey Vyazmikin:

这里的问题是如何识别 "许多有价值的部分和有毒的部分"--也就是说,你需要识别它们的互换性,或者像我之前建议的那样,分两次进行。或者你有其他选择吗?

我知道有一种方法可以只用两遍就完成。首先我们制作一张地图,然后我们选择一条道路。直接去,没有地图也可以去,但风险要大得多,特别是路上有沟壑和沼泽的时候,还要有指南针、星星和太阳)。

问题是行动的成本和初始数据的可用性。显然,你必须从这里设定目标。条件可能不同。我们知道点和段的数量。我们不知道段的数量,但我们知道点的数量,我们不知道点和段的数量,我们只知道它们是相当多的。我们知道,从一个点出发的段数最多为N。

一般来说,这部分必须首先正式化。

 
Aleksey Vyazmikin:

是的,这在理论上是可能的。然而,提升的方法意味着在不同的预测因子上建立一组连续的树,这意味着可以为另一个特征选择正确的边界(如果有统计学上的理由),这样就可以减轻 "错误 "了。

有时会觉得这根本不是一个错误,而且反应对属性的依赖(在我们的问题中)有时可能 是跳跃的。

Aleksey Vyazmikin:

CatBoost也给出了类成员概率的估计值,但根据我的观察,它恰恰相反--在不经常出现的罕见观察中,信心较高,它会导致它们被高估,在独立样本上,它将导致错误的分类或更罕见的高指标的出现。

我的意思是,针对每一组特定特征的训练有素的模型,不是回答 "要么是0,要么是1",而是在0到1的范围内以数字形式给出答案。在随机森林中,它似乎也是这样工作的,但我不知道你是指这个还是指度量。

 
Dmitry Fedoseev:

Dimitri,请帮助我,我需要将算法中的cut[]数组从int改为float,但编译器却出现了错误。

 
Valeriy Yastremskiy:

我只知道一种两遍的方法。首先你做一张地图,然后你选择一条道路。直接去,没有地图也可以去,但风险更大,特别是路上有沟壑和沼泽,又没有指南针、星星和太阳)。

完全的黑暗在等待着无畏的路人 :)

瓦列里-亚斯特雷姆斯基

问题是行动的成本和初始数据的可用性。显然,我们必须从这里开始设定目标。条件可能不同。我们知道点和段的数量。我们不知道段的数量,但我们知道点的数量,我们不知道点和段的数量,我们只知道它们是相当多的。我们知道,从一个点出发的段数最多为N。

所以这部分必须先正式化。

我们在搜索开始时就知道了点和线段的数量,我们甚至知道在一到40个线段中可能可以容纳的最大数量(如果该线段在两个选项中至少包含5%的相同目标点)。

搜索的实际段数可能不同--现在我得到的是1到263段,但可能有重复的。

 
Aleksey Nikolayev:

有时会觉得这根本不是一个错误,答案对特征的依赖(在我们的问题中)有时可能 是跳跃性的。

如果我们谈论的是在统计学上击中其中一个班级的较高比例,那么是的,相邻的部分可能对目标有不同的倾向性。我甚至想尝试一种转变,以促进学习,转变的实质是按属于目标的类型和概率程度对片段进行排序,因此左边是零的片段,右边是单位的片段--在中央弱化表达。

阿列克谢-尼古拉耶夫

我的意思是,针对每一个特定的特征集训练出来的模型,不是回答 "要么是0,要么是1",而是在0到1的区间内以数字的形式给出答案。 例如,Logistic 回归就是这样工作的。在随机森林中,似乎也是这样工作的,但我不知道这是否是你的意思,或者你说的是度量。

这是CatBoost模型在X轴概率刻度上训练后的结果--蓝色曲线是例子的数量,你可以看到它们的数量正在减少。

水是0级,磁是1级。红色的曲线是损失,浅蓝色的是增益。

而这是在一个独立样本上的相同模型。

你认为逻辑回归会有不同的分布吗?

逻辑回归算法本身就输给了没有参数调整的CatBoost算法。

 
Aleksey Vyazmikin:

你认为逻辑回归会有不同的分布吗?

逻辑回归算法本身,在不调整参数的情况下,输给了CatBoost。

不,我说的不是在实践中比较算法的问题。我对一个哲学问题感兴趣,如何选择一个算法并正确地训练它,同时考虑到类可以是a)彼此明确分开的,b)混合的,c)a)和b)点的一些混合物。对于(a),你需要一个明确的分类,对于(b),你需要一个模糊的分类,对于(c),你需要以某种方式混合它们,但不是摇晃它们。

也许我应该把我的问题移到国防部的主题。

 
Aleksey Nikolayev:

不,我说的不是在实践中比较算法的问题。我对一个哲学问题感兴趣,考虑到类可以是a)明确分开的,b)混合的,c)(a)和(b)的某种混合,如何选择一个算法并正确训练它。对于(a),你需要一个明确的分类,对于(b),你需要一个模糊的分类,对于(c),你需要以某种方式混合它们,但不是摇晃它们。

也许我应该把我的问题移到国防部的主题。

任何算法可能都能应对明确的分离。问题是哪种算法可以更好地分配一个子空间来突出杂乱无章的类的区域。

交易中的分区问题是分区的有效性值得怀疑--因此增加了训练的难度。

我没有使用过许多目前可用的MO方法,所以我无法充分评估它们的优势和劣势。

 
能以分形集群的形式将空间推断到未来。
 
Veniamin Skrepkov:
能够以分形集群的形式将空间推断到未来。

你能告诉我怎么做吗?