交易中的机器学习：理论、模型、实践和算法交易

Maxim Dmitrievsky 2022.02.17 09:20 #25851

mytarmailS#:

))))

我不干了)

我给你一个提示：在概括方面，没有什么变化

Aleksey Nikolayev 2022.02.17 09:32 #25852

Maxim Dmitrievsky#:
Logloss显示了特征和目标之间的相互信息量，就我的理解而言。这是最客观的f-i，没有描述依赖的形式。模型的训练是为了最大限度地减少这种信息的损失，特别是提升的工作方式。你在自定义的基础上增加的内容将在训练中停止。

看来，logloss是根据二项分布的最大似然原则得出的。在matstat中，最大似然原则被扩展和概括为M-估计，这可以成为实验的一些理论依据（当然，不是实验成功的保证）。

Maxim Dmitrievsky 2022.02.17 09:41 #25853

Aleksey Nikolayev#:

像logloss是由二项分布的最大似然原则得出的。在matstat中，最大似然原则被扩展和概括为M-估计，这可以成为实验的一些理论依据（当然，不是实验成功的保证）。

可能与交叉熵相混淆，但它更多地是用于多类。在任何情况下，我都不认为通过任何f函数进行额外的估计有什么问题，而是纯粹从平衡图中进行估计。

Aleksey Nikolayev 2022.02.17 11:03 #25854

Maxim Dmitrievsky#:
可能与交叉熵混淆了，但它更多地被用于多类。

那里似乎有一些东西，最小对数的理论值与熵相吻合。

Maxim Dmitrievsky#:
总之，我认为通过任何f函数进行额外的估计是没有问题的，但纯粹从平衡图中可以看出

我想是的。只因没有大量的相关文章而感到困惑）可能是怕暴露出猫腻的地方)

Maxim Dmitrievsky 2022.02.19 05:57 #25855

Aleksey Nikolayev#:

那里似乎有一些东西，对数最小值的理论值与熵重合。

我想是的。只是缺乏大量关于这个问题的文章而感到不安）可能，他们害怕暴露出有猫腻的地方）

普拉多有许多关于这个问题的有趣文章。把它放在一个长长的抽屉里，但以后会很乐意读它。最明智的作者之一 )

Aleksey Nikolayev 2022.02.19 10:12 #25856

Maxim Dmitrievsky#:
Prado在这个问题上有很多有趣的东西，他的文章都在网站上。放在一个长长的抽屉里，但我想以后再读。最明智的作者之一）。

是的，我应该看一下他的文章。不过，他有不少这样的人)

关于你提出的结合标准和自定义指标的想法，我想起了一个关于树的想法，它是由交叉熵建立的，并通过错误频率进行修剪。我想你可以尝试使用你自己的衡量标准，而不是频率。

Replikant_mih 2022.02.20 08:06 #25857

Renat Fatkhullin#:
你能分享一下信息吗？

1) 你是否使用MT5的python库？

2) 你是在MT5之外还是在MT5之内使用它？

3）图书馆缺乏什么功能？获得指标？

我们正准备对MQL5进行升级，增加快速矩阵操作。这将允许进行大规模的计算。

此外，我们将开发与分析包的连接器，并实现标准的WinML集成。

1.有时。

2.里面，外面。

3.

3.1 事件订阅。与MQL5中由某些处理方法触发的事件相同。

可以用Python编写策略（作为一种应用程序），可以在回测器中测试。

一些现成的MQL5-Python互动机制。Python可以与mt5进行双向互动，MQL5可以与之进行双向互动，MQL5与终端是一个单元，在

具有交易功能和类似功能，但不知道如何与行业的顶级数据感应解决方案舒适地合作。在数据意义上，Python是行业标准--pandas、numpy、TensorFlow、Keras、PyTorch等，但在平台上的 "交易员 "整合要少得多。如果有标准的手段来整合这两种力量，那就很酷了--比如你在mt5中挂一个Python脚本，脚本有一个模型在等待，在蒸汽下，或者一个模型池，处理预处理数据的函数，等等。该脚本有MQL5应用和策略，它做它的工作，并在必要时从该脚本中调用ML功能--快速且无拐杖。

mytarmailS 2022.02.20 09:52 #25858

是否有人使用P包进行Quantstrat策略回测？

在速度方面如何呢？

Forester 2022.02.23 12:03 #25859

Aleksey Nikolayev#:

说实话，我不太明白。问题是，这个概率会随着时间的推移而变化吗？为了研究这一点，我们可以简单地构建一个关于时间的逻辑回归（并检查系数与零之间的差异的意义）。

如果除了时间之外，还在研究影响概率的其他因素，那么也可以尝试将这些因素加入到逻辑回归中。

elibrarius#:

或者，也许做另一个预测器更容易--数据线与当前线的距离。森林本身可以计算出，超过8个月的数据对当前的预测是不利的。而且会有一个简单的分割：8个月前（有更好的叶子），8个月后有更差的叶子。
当然，在一个托盘上，他们都学得很好。在测试/交叉验证中，我们应该检查。但怎么做呢？这一点并不清楚。这甚至不是预测器的意义，而是分裂的意义。

今天，我增加了这样一个与当前条形图的距离预测器。它可以是一个数字或只是一个时间。我花了时间。

实验发现，训练数据集的历史长度为1个月，可以得到最佳的结果。

认为从第一条数据线开始添加距离预测器会有帮助的假设是错误的。在实践中，只有在有1个月数据的情况下，前向才会恶化，有2个月，有10个月。

假设你有2个月的数据，树已经找到了1个月的分叉，它的一个分支已经在实验中选择的1个月的长度的相同数据上进行训练。另一个月也对自己的数据进行了训练。而且它学得很好，不坏（正如我在开始时建议的那样）。这将对前锋不利，而且它只会在托盘上学习。结果是，模型对两个月的结果进行了平均化，而且前进的结果比只对1个月进行训练的结果要差。

结论：你不能应用全局时间或行数。循环时间变体：星期几、小时、分钟是有用的，但我们应该检查它们。
对于每个目标（和/或一组预测器），必须调整/优化训练的历史长度。

Forester 2022.02.23 12:39 #25860

勾选了 "周期性时间选项：星期几、小时、分钟数可能有用--需要检查"。

分钟几乎没有影响，变化不超过0.5%
小时和一周内的日子有影响。变化约为3-5%。

我同时建立2个模型：1个用于购买，2个用于出售。
买入模型在没有时间的情况下效果好4-5%，卖出模型在有时间的情况下效果好同样是4-5%。像5%按期卖出，按其他原则买入。

交易中的机器学习：理论、模型、实践和算法交易 - 页 2586