交易中的机器学习:理论、模型、实践和算法交易 - 页 2757

 
Aleksey Nikolayev #:

重载的第一个想法是编写另一个同名但参数不同的函数。我从未在 Rcpp 中这样做过,所以不知道是否可行。我可能需要在一个单独的文件中编写 C 代码,并使用 sourceCpp() 代替 cppFunction()。

谢谢

 
Maxim Dmitrievsky #:
正确。由于缺乏先验假设,使用的是第二种类型。
阿列克谢-尼古拉耶夫#:

在我看来,连接有两种类型。

第一种是因果关系,这是由特定学科领域知识中关于研究对象的先验信息决定的,而不是由一些计算决定的。

第二种是概率依赖,可以通过观察对象的行为获得的一些数据进行后验计算。第二种类型包括相关性、确定性依赖性(作为极端情况)等等,包括共线和其他方法所描述的依赖性。研究这种类型的基础是假设预测因子和目标存在联合分布。

由于缺乏实验 ,因此使用第二种类型(如美国食品与药品协会 - 不会测试正态代表性样本以得出结论,因此它依赖于贝叶斯方法)......没有先验信息,就根本没有什么模型可言

 
JeeyCi #:

因为缺乏实验 ,所以使用第二种方法(例如美国食品与药品协会 - 不会对正常的代表性样本进行测试以得出结论,因此它依赖于贝叶斯方法)......没有先验信息,就根本无法建模。

你看过资料库本身吗?有什么可以玩的吗?等我忙完了再看看。

有很多这样的库,所以需求量很大。
 

有人参加过 Numerai 竞赛吗?在那里要怎么赚钱?

你必须自己投资吗?我不明白他们的支付模式是什么。

 
Evgeni Gavrilovi #:

有人参加过 Numerai 竞赛吗?在那里要怎么做才能赚钱?

你必须自己投资吗?我不知道他们的支付模式是什么。

也许这个会有帮助。
 

我还没去图书馆看,这篇文章太恶心了--与统计常识相悖 ....

标准英语来源--时间序列分析的意义被简化为在处理/干预 时政策的变化,以及对总体趋势斜率变化的分析(我想,这可以解释为行为者--在处理时感受到政策的影响并修改其决策过程--这正是营销人员在评估折扣、销售等促销活动的效果时进行研究的目的,以便找出价格是否不适合顾客,或产品原则上不适合顾客,或购物中心的位置不适合顾客等)....。д.)...

但在建模过程中也会遇到同样的问题--要评估治疗后的效果,当然需要一个样本(!)来近似得出 "有帮助-无帮助-无差别 "的结论(就干预而言)......

就反事实而言--重要的是要提出正确的问题,以评估政策变化(或某些干预措施)引起的动态变化--选择衡量标准、目标和参数(用于调整)--因为不同的提问会产生不同的结果(和不同的斜率变化)--从而得出不同的结论。

我对 ML 真实数据中的不平衡问题(会使估算产生偏差)感到困惑--这里有人用超采样/反采样来解决这个问题吗?-- 我不明白以这种方式扭曲真实数据有什么意义....。

但有必要在处理前阶段获得代表性样本(先验概率分布),并在处理后阶段(如政策变化)获得后验分布......这就是决定 "停止规则 "的重要性所在--即是增加样本来完善结果,还是利用所选的样本限制来得出结论?但并不能确定增加样本会提高平均数或方差的统计意义。

= 这是一个规模问题......通常情况下,如果干预的效果很大,就可以在小样本中看到....。

因素(FS)问题也依然存在--通过增加考虑因素的数量,我们可以减少估计值的偏差,但会增加方差......任务:找到重要的因子(探索性数据分析 中的通常做法--这就是为什么它被称为Data_Science,而不是程序员对随机的愚蠢近似),以获得低方差的无偏估计值(这两个目标之间的平衡由开发人员自行决定)。

弗拉基米尔已经阐述了很多 关于选择因子的问题--如果我们要为选择高概率交易建立概率模型的话。

附注

在时间序列分析中,速度和加速度(如果有的话)总是很重要的,它们在处理前和处理后的比较可以得出结论(包括方向的变化)......

正确选择目标的发散/会聚和极值也仍然有效...一切照旧 - 这都与神经网络的设计/架构有关...只预测趋势及其发展概率,仅此而已...在日间交易者的市场中,一切变化都比长期趋势快(如果按 D1 分析) - 因此,时间因素也应纳入机器人的日间交易模型....。总之,将您的交易风格正规化,这样您就不必一直坐在监视器前了。 如果您愿意,还可以寻找进入和退出市场或远离市场的统计原因(即使是出于风险管理的原因--当市场不明朗时)。

附注

在研究结构性因果模型(如前所述,什么取决于什么)方面,这个话题可以无止境地发展下去--包括考虑外生因素(外部影响)和内生因素(如商品或金融货币,甚至执政党的更迭,我猜想)....。一般来说,您可以像往常一样检查任何假设的数据,并查看在特定显著性水平下对零假设的接受或拒绝情况(增加样本量以提高其[显著性水平])。

p.p.p.s

虽然有些人不喜欢 "概率分布 "这个词--但其本质并没有改变--分布仍然是概率分布,即使它们是有条件的(条件给出了分类的理由)......处理前和处理后(在 A/B 测试中)可以被视为条件(政策)的变化,但可以估计回归或比较方差(是否发生变化),即使斜率相同。

Глубокие нейросети (Часть III). Выбор примеров и уменьшение размерности
Глубокие нейросети (Часть III). Выбор примеров и уменьшение размерности
  • www.mql5.com
Эта статья продолжает серию публикаций о глубоких нейросетях. Рассматривается выбор примеров (удаление шумовых), уменьшение размерности входных данных и разделение набора на train/val/test в процессе подготовки данных для обучения.
 
我的印象是,这一切都与交易相去甚远
 
这就是为什么我说你应该首先决定算法(包括不平衡--我不知道你想用它们做什么?- 当您之前建议过采样时)......然后寻找一个库,允许您将必要的实体/类添加到代码中......或者用必要的类编写您自己的库......或者用你需要的类编写你自己的库。
 
JeeyCi #:
这就是为什么我说你应该首先决定算法(包括不平衡--我不知道你想用它们做什么?- 当您之前建议过采样时)......然后寻找一个库,允许您将必要的实体/类添加到代码中......或者用必要的类编写您自己的库......或者用你需要的类编写你自己的库。
重新采样是为了去除异常值,使样本高斯化

我一般是建议通过熵或相关性进行有意义的采样。使芯片信息量更大。另外,通过各种变换,从原始序列中提取增量并为其添加最大信息量。再加上一个非固定的滞后窗口。这是一个新手方法,没有人做过这个。不过我感染了一些冠状病毒的垃圾,正在休息 ☺️

休闲的地狱人本应帮助选择信息量大的排版作为选项,但结果并非如此
 
JeeyCi #:
这就是为什么我说你应该首先决定算法(包括不平衡--我不知道你想用它们做什么?- 当您之前建议过采样时)......然后寻找一个库,允许您将必要的实体/类添加到代码中......或者用必要的类编写您自己的库......或者用你需要的类编写你自己的库

你所需要的一切都已在你面前编好。

R 的 caret shell 包含多达 200 个(!)模型,用你的术语(库)+ 数据挖掘和模型选择所需的所有流水线。

问题在于预测因子的选择和它们的选择,在模型方面长期以来都不存在问题。