交易中的机器学习:理论、模型、实践和算法交易 - 页 2586

 
mytarmailS#:

))))

我不干了)

我给你一个提示:在概括方面,没有什么变化
 
Maxim Dmitrievsky#:
Logloss显示了特征和目标之间的相互信息量,就我的理解而言。这是最客观的f-i,没有描述依赖的形式。模型的训练是为了最大限度地减少这种信息的损失,特别是提升的工作方式。你在自定义的基础上增加的内容将在训练中停止。

看来,logloss是根据二项分布的最大似然原则得出的。在matstat中,最大似然原则被扩展和概括为M-估计,这可以成为实验的一些理论依据(当然,不是实验成功的保证)。

 
Aleksey Nikolayev#:

像logloss是由二项分布的最大似然原则得出的。在matstat中,最大似然原则被扩展和概括为M-估计,这可以成为实验的一些理论依据(当然,不是实验成功的保证)。

可能与交叉熵相混淆,但它更多地是用于多类。在任何情况下,我都不认为通过任何f函数进行额外的估计有什么问题,而是纯粹从平衡图中进行估计。
 
Maxim Dmitrievsky#:
可能与交叉熵混淆了,但它更多地被用于多类。

那里似乎有一些东西,最小对数的理论值与熵相吻合。

Maxim Dmitrievsky#:
总之,我认为通过任何f函数进行额外的估计是没有问题的,但纯粹从平衡图中可以看出

我想是的。只因没有大量的相关文章而感到困惑)可能是怕暴露出猫腻的地方)

 
Aleksey Nikolayev#:

那里似乎有一些东西,对数最小值的理论值与熵重合。

我想是的。只是缺乏大量关于这个问题的文章而感到不安)可能,他们害怕暴露出有猫腻的地方)

普拉多有许多关于这个问题的有趣文章。把它放在一个长长的抽屉里,但以后会很乐意读它。最明智的作者之一 )
 
Maxim Dmitrievsky#:
Prado在这个问题上有很多有趣的东西,他的文章都在网站上。放在一个长长的抽屉里,但我想以后再读。最明智的作者之一)。

是的,我应该看一下他的文章。不过,他有不少这样的人)

关于你提出的结合标准和自定义指标的想法,我想起了一个关于树的想法,它是由交叉熵建立的,并通过错误频率进行修剪。我想你可以尝试使用你自己的衡量标准,而不是频率。

 
Renat Fatkhullin#:
你能分享一下信息吗?
1) 你是否使用MT5的python库?
2) 你是在MT5之外还是在MT5之内使用它?
3)图书馆缺乏什么功能?获得指标?

我们正准备对MQL5进行升级,增加快速矩阵操作。这将允许进行大规模的计算。

此外,我们将开发与分析包的连接器,并实现标准的WinML集成。

1.有时。

2.里面,外面。

3.

3.1 事件订阅。与MQL5中由某些处理方法触发的事件相同。

可以用Python编写策略(作为一种应用程序),可以在回测器中测试。

一些现成的MQL5-Python互动机制。Python可以与mt5进行双向互动,MQL5可以与之进行双向互动,MQL5与终端是一个单元,在

具有交易功能和类似功能,但不知道如何与行业的顶级数据感应解决方案舒适地合作。在数据意义上,Python是行业标准--pandas、numpy、TensorFlow、Keras、PyTorch等,但在平台上的 "交易员 "整合要少得多。如果有标准的手段来整合这两种力量,那就很酷了--比如你在mt5中挂一个Python脚本,脚本有一个模型在等待,在蒸汽下,或者一个模型池,处理预处理数据的函数,等等。该脚本有MQL5应用和策略,它做它的工作,并在必要时从该脚本中调用ML功能--快速且无拐杖。

 

是否有人使用P包进行Quantstrat策略回测?

在速度方面如何呢?

 
Aleksey Nikolayev#:

说实话,我不太明白。问题是,这个概率会随着时间的推移而变化吗?为了研究这一点,我们可以简单地构建一个关于时间的逻辑回归(并检查系数与零之间的差异的意义)。

如果除了时间之外,还在研究影响概率的其他因素,那么也可以尝试将这些因素加入到逻辑回归中。

elibrarius#:

或者,也许做另一个预测器更容易--数据线与当前线的距离。森林本身可以计算出,超过8个月的数据对当前的预测是不利的。而且会有一个简单的分割:8个月前(有更好的叶子),8个月后有更差的叶子。
当然,在一个托盘上,他们都学得很好。在测试/交叉验证中,我们应该检查。但怎么做呢?这一点并不清楚。这甚至不是预测器的意义,而是分裂的意义。

今天,我增加了这样一个与当前条形图的距离预测器。它可以是一个数字或只是一个时间。我花了时间。

实验发现,训练数据集的历史长度为1个月,可以得到最佳的结果。

认为从第一条数据线开始添加距离预测器会有帮助的假设是错误的。在实践中,只有在有1个月数据的情况下,前向才会恶化,有2个月,有10个月。

假设你有2个月的数据,树已经找到了1个月的分叉,它的一个分支已经在实验中选择的1个月的长度的相同数据上进行训练。另一个月也对自己的数据进行了训练。而且它学得很好,不坏(正如我在开始时建议的那样)。这将对前锋不利,而且它只会在托盘上学习。结果是,模型对两个月的结果进行了平均化,而且前进的结果比只对1个月进行训练的结果要差。

结论:你不能应用全局时间或行数。循环时间变体:星期几、小时、分钟是有用的,但我们应该检查它们。
对于每个目标(和/或一组预测器),必须调整/优化训练的历史长度。

 

勾选了 "周期性时间选项:星期几、小时、分钟数可能有用--需要检查"。

分钟几乎没有影响,变化不超过0.5%
小时和一周内的日子有影响。变化约为3-5%。

我同时建立2个模型:1个用于购买,2个用于出售。
买入模型在没有时间的情况下效果好4-5%,卖出模型在有时间的情况下效果好同样是4-5%。像5%按期卖出,按其他原则买入。