交易中的机器学习：理论、模型、实践和算法交易

mytarmailS 2022.09.23 17:38 #27561

Aleksey Nikolayev #:

重载的第一个想法是编写另一个同名但参数不同的函数。我从未在 Rcpp 中这样做过，所以不知道是否可行。我可能需要在一个单独的文件中编写 C 代码，并使用 sourceCpp() 代替 cppFunction()。

谢谢

JeeyCi 2022.09.25 06:41 #27562

Maxim Dmitrievsky #:
正确。由于缺乏先验假设，使用的是第二种类型。

阿列克谢-尼古拉耶夫#:

在我看来，连接有两种类型。

第一种是因果关系，这是由特定学科领域知识中关于研究对象的先验信息决定的，而不是由一些计算决定的。

第二种是概率依赖，可以通过观察对象的行为获得的一些数据进行后验计算。第二种类型包括相关性、确定性依赖性（作为极端情况）等等，包括共线和其他方法所描述的依赖性。研究这种类型的基础是假设预测因子和目标存在联合分布。

由于缺乏实验，因此使用第二种类型（如美国食品与药品协会 - 不会测试正态代表性样本以得出结论，因此它依赖于贝叶斯方法）......没有先验信息，就根本没有什么模型可言

Maxim Dmitrievsky 2022.09.25 11:09 #27563

JeeyCi #:

因为缺乏实验，所以使用第二种方法（例如美国食品与药品协会 - 不会对正常的代表性样本进行测试以得出结论，因此它依赖于贝叶斯方法）......没有先验信息，就根本无法建模。

你看过资料库本身吗？有什么可以玩的吗？等我忙完了再看看。

有很多这样的库，所以需求量很大。

Evgeni Gavrilovi 2022.09.25 16:33 #27564

有人参加过 Numerai 竞赛吗？在那里要怎么赚钱？

你必须自己投资吗？我不明白他们的支付模式是什么。

mytarmailS 2022.09.25 18:46 #27565

Evgeni Gavrilovi #:

有人参加过 Numerai 竞赛吗？在那里要怎么做才能赚钱？

你必须自己投资吗？我不知道他们的支付模式是什么。

也许这个会有帮助。

https://www.quora.com/How-does-the-hedge-fund-Numerai-work

JeeyCi 2022.09.26 08:59 #27566

我还没去图书馆看，这篇文章太恶心了--与统计常识相悖 ....

标准英语来源--时间序列分析的意义被简化为在处理/干预 时政策的变化，以及对总体趋势斜率变化的分析（我想，这可以解释为行为者--在处理时感受到政策的影响并修改其决策过程--这正是营销人员在评估折扣、销售等促销活动的效果时进行研究的目的，以便找出价格是否不适合顾客，或产品原则上不适合顾客，或购物中心的位置不适合顾客等）....。д.)...

但在建模过程中也会遇到同样的问题--要评估治疗后的效果，当然需要一个样本（！）来近似得出 "有帮助-无帮助-无差别 "的结论（就干预而言）......

就反事实而言--重要的是要提出正确的问题，以评估政策变化（或某些干预措施）引起的动态变化--选择衡量标准、目标和参数（用于调整）--因为不同的提问会产生不同的结果（和不同的斜率变化）--从而得出不同的结论。

我对 ML 真实数据中的不平衡问题（会使估算产生偏差）感到困惑--这里有人用超采样/反采样来解决这个问题吗？-- 我不明白以这种方式扭曲真实数据有什么意义....。

但有必要在处理前阶段获得代表性样本（先验概率分布），并在处理后阶段（如政策变化）获得后验分布......这就是决定 "停止规则 "的重要性所在--即是增加样本来完善结果，还是利用所选的样本限制来得出结论？但并不能确定增加样本会提高平均数或方差的统计意义。

= 这是一个规模问题......通常情况下，如果干预的效果很大，就可以在小样本中看到....。

因素（FS）问题也依然存在--通过增加考虑因素的数量，我们可以减少估计值的偏差，但会增加方差......任务：找到重要的因子（探索性数据分析中的通常做法--这就是为什么它被称为Data_Science，而不是程序员对随机的愚蠢近似），以获得低方差的无偏估计值（这两个目标之间的平衡由开发人员自行决定）。

弗拉基米尔已经阐述了很多关于选择因子的问题--如果我们要为选择高概率交易建立概率模型的话。

附注

在时间序列分析中，速度和加速度（如果有的话）总是很重要的，它们在处理前和处理后的比较可以得出结论（包括方向的变化）......

正确选择目标的发散/会聚和极值也仍然有效...一切照旧 - 这都与神经网络的设计/架构有关...只预测趋势及其发展概率，仅此而已...在日间交易者的市场中，一切变化都比长期趋势快（如果按 D1 分析） - 因此，时间因素也应纳入机器人的日间交易模型....。总之，将您的交易风格正规化，这样您就不必一直坐在监视器前了。如果您愿意，还可以寻找进入和退出市场或远离市场的统计原因（即使是出于风险管理的原因--当市场不明朗时）。

附注

在研究结构性因果模型（如前所述，什么取决于什么）方面，这个话题可以无止境地发展下去--包括考虑外生因素（外部影响）和内生因素（如商品或金融货币，甚至执政党的更迭，我猜想）....。一般来说，您可以像往常一样检查任何假设的数据，并查看在特定显著性水平下对零假设的接受或拒绝情况（增加样本量以提高其[显著性水平]）。

p.p.p.s

虽然有些人不喜欢 "概率分布 "这个词--但其本质并没有改变--分布仍然是概率分布，即使它们是有条件的（条件给出了分类的理由）......处理前和处理后（在 A/B 测试中）可以被视为条件（政策）的变化，但可以估计回归或比较方差（是否发生变化），即使斜率相同。

Глубокие нейросети (Часть III). Выбор примеров и уменьшение размерности

www.mql5.com

Эта статья продолжает серию публикаций о глубоких нейросетях. Рассматривается выбор примеров (удаление шумовых), уменьшение размерности входных данных и разделение набора на train/val/test в процессе подготовки данных для обучения.

Maxim Dmitrievsky 2022.09.26 11:23 #27567

我的印象是，这一切都与交易相去甚远

JeeyCi 2022.09.27 07:52 #27568

这就是为什么我说你应该首先决定算法（包括不平衡--我不知道你想用它们做什么？- 当您之前建议过采样时）......然后寻找一个库，允许您将必要的实体/类添加到代码中......或者用必要的类编写您自己的库......或者用你需要的类编写你自己的库。

Maxim Dmitrievsky 2022.09.27 08:33 #27569

JeeyCi #:
这就是为什么我说你应该首先决定算法（包括不平衡--我不知道你想用它们做什么？- 当您之前建议过采样时）......然后寻找一个库，允许您将必要的实体/类添加到代码中......或者用必要的类编写您自己的库......或者用你需要的类编写你自己的库。

重新采样是为了去除异常值，使样本高斯化

我一般是建议通过熵或相关性进行有意义的采样。使芯片信息量更大。另外，通过各种变换，从原始序列中提取增量并为其添加最大信息量。再加上一个非固定的滞后窗口。这是一个新手方法，没有人做过这个。不过我感染了一些冠状病毒的垃圾，正在休息 ☺️

休闲的地狱人本应帮助选择信息量大的排版作为选项，但结果并非如此

СанСаныч Фоменко 2022.09.27 08:33 #27570

JeeyCi #:
这就是为什么我说你应该首先决定算法（包括不平衡--我不知道你想用它们做什么？- 当您之前建议过采样时）......然后寻找一个库，允许您将必要的实体/类添加到代码中......或者用必要的类编写您自己的库......或者用你需要的类编写你自己的库。

你所需要的一切都已在你面前编好。

R 的 caret shell 包含多达 200 个（！）模型，用你的术语（库）+ 数据挖掘和模型选择所需的所有流水线。

问题在于预测因子的选择和它们的选择，在模型方面长期以来都不存在问题。

交易中的机器学习：理论、模型、实践和算法交易 - 页 2757