交易中的机器学习：理论、模型、实践和算法交易

СанСаныч Фоменко 2023.07.14 15:46 #31411

Maxim Dmitrievsky #:

几张O.C.D.图，好吗？

对一个新老师来说不是。

我正在尝试解决预测值粗化的问题。在我看来，如果预测值与模型训练所依据的值稍有不同，就会出现分类错误。我曾经尝试过将所有预测值转换为名义值，但没有得到任何结果。然而，名义变量的值只有一个。也许我们需要几百个？我正在努力，但还有许多其他有趣的问题。

СанСаныч Фоменко 2023.07.14 16:06 #31412

Forester #:

搜索时间很长，尤其是搜索几秒钟。

是的，很长，真的不急，但还是很长。

问题在于，预测器的预测能力只是筹码之一。而在我的预处理中，有很多这样的筹码，每个筹码都需要一组统计数据来证明其合理性。

我在上面还提到了一个问题，这个问题我已经很久没有找到解决方案了。

Maxim Dmitrievsky 2023.07.14 17:42 #31413

СанСаныч Фоменко #:

对于新教师来说，没有。

我正在尝试解决预测值粗化的问题。在我看来，如果预测值与模型训练时所依据的值稍有不同，就会出现分类错误。我曾经尝试过将所有预测值转换为名义值，但没有得到任何结果。然而，名义变量的值只有一个。也许我们需要几百个？我正在努力，但还有许多其他有趣的问题。

"

一个理想的模型应该具有低偏差和低方差。然而，在现实中，偏差和方差之间存在所谓的 "权衡"。增加模型的复杂性（如增加参数）可以减少偏差，但会增加方差。相反，简化模型可能会减少方差，但会增加偏差。

"

假设您可以将曲轴弯曲到令人满意的程度，并将间隙削尖，但这并不能解决问题，因为这不再是 "设计"。

Aleksey Nikolayev 2023.07.14 20:52 #31414

Maxim Dmitrievsky #:

"

一个理想的模型应该具有低偏差和低方差。然而，在现实中，偏差和方差之间存在所谓的 "权衡"。增加模型的复杂性（如增加参数）可以减少偏差，但会增加方差。相反，简化模型可能会减少方差，但会增加偏差。

"

假设你可以将曲轴弯曲到令人满意的程度，并将间隙削尖，但这并不能解决问题，因为它不再是 "设计 "的了。

出于某种原因，第三个因素经常被遗忘，即无法弥补的误差。如果误差足够大（在我看来，由于价格接近 SB，我们有很多误差），它可能比前两个更重要。

无论如何，这些都是非常重要的因素，可以归结为一个问题：从我们拥有的价格样本（以及其他可用数据）中可以提取的最大信息是什么？

Maxim Dmitrievsky 2023.07.15 01:48 #31415

Aleksey Nikolayev #:

出于某种原因，人们常常会忘记第三个因素，即无法弥补的误差。如果这个误差足够大（在我看来，在我国，由于价格与 SB 非常接近，这个误差并不小），它可能比前两个误差更重要。

无论如何，这些都是非常重要的因素，可以归结为一个问题：从我们所掌握的价格样本（以及其他可用数据）中可以提取的最大信息是什么？

因此，我们不应该试图预测所有的情况，而应该找出那些可以预测的情况。

这就是所谓的 "异质三元效应"，可以把它比作不是弯曲曲轴，而是找到能用的零件并丢弃不能用的零件。

那么，X 的属性就变成了情境属性，而不是经典意义上的 Y 的 "预测因子"。这就是为什么在 Kozul 中它们被称为 "协变量"。

结果将回答您关于最大信息量的问题（取决于用什么来衡量）。通常用 ATE 或 CATE 来衡量。

mytarmailS 2023.07.15 06:26 #31416

Aleksey Nikolayev #:

一个问题：从现有的价格样本（和其他可用数据）中可以提取的最大信息量是多少？

我认为，我们需要正确设定任务。

定义信息

定义 "最大信息量"（至少要了解何时停止）。

意识到每个目标都会有不同的集合，因此我们需要声明目标。

但这是个有趣的问题，我喜欢。

СанСаныч Фоменко 2023.07.15 07:11 #31417

Aleksey Nikolayev #:

出于某种原因，人们常常会忘记第三个因素，即无法弥补的误差。如果这个误差足够大（在我看来，在我国，由于价格与 SB 非常接近，这个误差并不小），它可能比前两个误差更重要。

无论如何，这些都是非常重要的因素，可以归结为一个问题：从我们所掌握的价格样本（以及其他可用数据）中可以提取的最大信息是什么？

这是一个论文研究的问题，而不是制造一个碾碎面团的机器人的问题。

我们需要的不是最多的信息，而是足够少的信息。因此，我们可以将自己限制在以下范围内：

1.创建一个在分类阶段分类误差小于 20% 的模型。应该理解的是，"模型 "包括对预测因子的全面预处理，以及模型评估工具。

2.将模型插入智能交易系统，该系统至少能提供相同的亏损/盈利交易比率。如果盈利系数高于 4，则还剩下一个步骤。

3.确保 OOS 没有任何变化，并了解 OOS 如此稳定的原因，这在于预处理，而不是模型。

20%的误差是什么原因造成的？

Andrey Dik 2023.07.15 07:31 #31418

对错误进行分类不是更容易吗？

我们发现的错误越多，模型就会保持得越好。不是信息最大化，而是定性（恕我直言）。

Aleksey Nikolayev 2023.07.15 08:04 #31419

mytarmailS #:
我认为斯纳罗需要正确设置任务。

定义信息

定义 "最大信息量"（至少了解何时停止）。

认识到每个目标都会有不同的集合，因此我们需要声明目标。

但这是个有趣的问题，我喜欢。

在我看来，马克西姆的上述方案非常好。正如桑-桑尼奇正确指出的，重要的不是信息本身，而是信息如何帮助存款倍增）。

如果为了简单起见，我们将交易策略视为三要素，将 Y 视为利润，那么定义（TS 最大化利润预期）就会变得非常平庸。

Aleksey Nikolayev 2023.07.15 08:11 #31420

СанСаныч Фоменко #:

这是一个论文研究的问题，而不是创造一个能碾碎面团的机器人。

我们需要的不是最多的信息，而是最基本的信息。因此，我们可以把自己限制在以下范围内：

1.创建一个在分类阶段分类误差小于 20% 的模型。应该理解的是，"模型 "包括对预测因子的全面预处理，以及模型评估工具。

2.将模型插入智能交易系统，该系统至少能提供相同的亏损/盈利交易比率。如果盈利系数高于 4，则还剩下一个步骤。

3.3. 在 OOS 上验证没有任何变化，并了解 OOS 如此稳定的原因，这在于预处理，而不是模型。

20% 的误差是什么原因造成的？

两者之间没有任何关系。显然，最大值不仅无法达到，甚至无法计算，但我们可以尝试以某种方式对其进行估算，并将其与差值等进行大致比较。我指的是马克西姆提出的最大值的变体。

交易中的机器学习：理论、模型、实践和算法交易 - 页 3142