交易中的机器学习:理论、模型、实践和算法交易 - 页 3142

 
Maxim Dmitrievsky #:

几张O.C.D.图,好吗?

对一个新老师来说不是。

我正在尝试解决预测值粗化的问题。在我看来,如果预测值与模型训练所依据的值稍有不同,就会出现分类错误。我曾经尝试过将所有预测值转换为名义值,但没有得到任何结果。然而,名义变量的值只有一个。也许我们需要几百个?我正在努力,但还有许多其他有趣的问题。

 
Forester #:

搜索时间很长,尤其是搜索几秒钟。

是的,很长,真的不急,但还是很长。

问题在于,预测器的预测能力只是筹码之一。而在我的预处理中,有很多这样的筹码,每个筹码都需要一组统计数据来证明其合理性。

我在上面还提到了一个问题,这个问题我已经很久没有找到解决方案了。

 
СанСаныч Фоменко #:

对于新教师来说,没有。

我正在尝试解决预测值粗化的问题。在我看来,如果预测值与模型训练时所依据的值稍有不同,就会出现分类错误。我曾经尝试过将所有预测值转换为名义值,但没有得到任何结果。然而,名义变量的值只有一个。也许我们需要几百个?我正在努力,但还有许多其他有趣的问题。

"

一个理想的模型应该具有低偏差和低方差。然而,在现实中,偏差和方差之间存在所谓的 "权衡"。增加模型的复杂性(如增加参数)可以减少偏差,但会增加方差。相反,简化模型可能会减少方差,但会增加偏差。


"

假设您可以将曲轴弯曲到令人满意的程度,并将间隙削尖,但这并不能解决问题,因为这不再是 "设计"。
 
Maxim Dmitrievsky #:

"

一个理想的模型应该具有低偏差和低方差。然而,在现实中,偏差和方差之间存在所谓的 "权衡"。增加模型的复杂性(如增加参数)可以减少偏差,但会增加方差。相反,简化模型可能会减少方差,但会增加偏差。


"

假设你可以将曲轴弯曲到令人满意的程度,并将间隙削尖,但这并不能解决问题,因为它不再是 "设计 "的了。

出于某种原因,第三个因素经常被遗忘,即无法弥补的误差。如果误差足够大(在我看来,由于价格接近 SB,我们有很多误差),它可能比前两个更重要。

无论如何,这些都是非常重要的因素,可以归结为一个问题:从我们拥有的价格样本(以及其他可用数据)中可以提取的最大信息是什么?

 
Aleksey Nikolayev #:

出于某种原因,人们常常会忘记第三个因素,即无法弥补的误差。如果这个误差足够大(在我看来,在我国,由于价格与 SB 非常接近,这个误差并不小),它可能比前两个误差更重要。

无论如何,这些都是非常重要的因素,可以归结为一个问题:从我们所掌握的价格样本(以及其他可用数据)中可以提取的最大信息是什么?

因此,我们不应该试图预测所有的情况,而应该找出那些可以预测的情况。

这就是所谓的 "异质三元效应",可以把它比作不是弯曲曲轴,而是找到能用的零件并丢弃不能用的零件。

那么,X 的属性就变成了情境属性,而不是经典意义上的 Y 的 "预测因子"。这就是为什么在 Kozul 中它们被称为 "协变量"。

结果将回答您关于最大信息量的问题(取决于用什么来衡量)。通常用 ATE 或 CATE 来衡量。


 
Aleksey Nikolayev #:

一个问题:从现有的价格样本(和其他可用数据)中可以提取的最大信息量是多少?

我认为,我们需要正确设定任务。

定义信息

定义 "最大信息量"(至少要了解何时停止)。

意识到每个目标都会有不同的集合,因此我们需要声明目标。


但这是个有趣的问题,我喜欢。
 
Aleksey Nikolayev #:

出于某种原因,人们常常会忘记第三个因素,即无法弥补的误差。如果这个误差足够大(在我看来,在我国,由于价格与 SB 非常接近,这个误差并不小),它可能比前两个误差更重要。

无论如何,这些都是非常重要的因素,可以归结为一个问题:从我们所掌握的价格样本(以及其他可用数据)中可以提取的最大信息是什么

这是一个论文研究的问题,而不是制造一个碾碎面团的机器人的问题。

我们需要的不是最多的信息,而是足够少的信息。因此,我们可以将自己限制在以下范围内:

1.创建一个在分类阶段分类误差小于 20% 的模型。应该理解的是,"模型 "包括对预测因子的全面预处理,以及模型评估工具。

2.将模型插入智能交易系统,该系统至少能提供相同的亏损/盈利交易比率。如果盈利系数高于 4,则还剩下一个步骤。

3.确保 OOS 没有任何变化,并了解 OOS 如此稳定的原因,这在于预处理,而不是模型。

20%的误差是什么原因造成的?

 

对错误进行分类不是更容易吗?

我们发现的错误越多,模型就会保持得越好。不是信息最大化,而是定性(恕我直言)。

 
mytarmailS #:
我认为斯纳罗需要正确设置任务。

定义信息

定义 "最大信息量"(至少了解何时停止)。

认识到每个目标都会有不同的集合,因此我们需要声明目标。


但这是个有趣的问题,我喜欢。

在我看来,马克西姆的上述 方案非常好。正如桑-桑尼奇正确指出的,重要的不是信息本身,而是信息如何帮助存款倍增)。

如果为了简单起见,我们将交易策略视为三要素,将 Y 视为利润,那么定义(TS 最大化利润预期)就会变得非常平庸。

 
СанСаныч Фоменко #:

这是一个论文研究的问题,而不是创造一个能碾碎面团的机器人。

我们需要的不是最多的信息,而是最基本的信息。因此,我们可以把自己限制在以下范围内:

1.创建一个在分类阶段分类误差小于 20% 的模型。应该理解的是,"模型 "包括对预测因子的全面预处理,以及模型评估工具。

2.将模型插入智能交易系统,该系统至少能提供相同的亏损/盈利交易比率。如果盈利系数高于 4,则还剩下一个步骤。

3.3. 在 OOS 上验证没有任何变化,并了解 OOS 如此稳定的原因,这在于预处理,而不是模型。

20% 的误差是什么原因造成的?

两者之间没有任何关系。显然,最大值不仅无法达到,甚至无法计算,但我们可以尝试以某种方式对其进行估算,并将其与差值等进行大致比较。我指的是马克西姆提出的最大值的变体。