交易中的机器学习:理论、模型、实践和算法交易 - 页 2812

 
Maxim Dmitrievsky #:

一年多前,当我还在写 RL 算法时,这里就讨论过这个问题。

我还不想回到过去,我也不想。
我不是站在标签的立场上,而是站在例如一些非常复杂的多细节代理行为策略的立场上。
 
mytarmailS #:
我说的不是标签的位置,而是代理行为的一些非常复杂的多步骤策略的位置。
你被表格式 RL 混淆了,在表格中,从一个状态到另一个状态的转换方向是最优化的,这些就是策略。这些表格后来被神经网络所取代。当代理有很多状态时,例如在游戏中。你只有 2-3 个买入/卖出状态等。然后通过奖励函数来优化这些状态的转换,例如通过对具有一定盈利条件的交易进行抽样,通过 NS 来优化策略。策略是环境与您希望过渡到的状态之间的关系。例如,指标值与交易方向之间的关系。

如果 NS 已经对所有情况进行了近似处理,并向您显示了您的操作错误,那么在表中进行 100500 次多次转换是毫无意义的。如果您需要先跳跃,然后射击、装弹、收集战利品、跑到另一侧等,则有必要这样做。这需要执行很多操作,而你只有 2-3 个。虽然老板就是老板)

我忘了补充一点,在游戏中,特工也会影响环境、改变环境,以及环境对特工的影响。这就是为什么你需要反复学习数千次才能掌握所有组合。而我们的情况并非如此,环境不会改变,所以我们只需一次就能完成。在这种情况下,强化学习就完全失去了强化学习的意义。你可以一次找到通往目标的最短路径。
 
解决方案非常简单,只需对数据集进行预处理。然后进行标准分析。然后,将每个输入作为目标变量,将每个 ML 的输出作为参数。每个输入的预测结果都会进行评估,不好的 "可预测 "结果会被丢弃。那么,那些通过过滤的输入将通过预测 ML 中的输出而被纳入工作模型。我会以这种方式扔掉不影响预测的芯片。
 
Maxim Dmitrievsky #:
这是指存在许多代理状态时,例如在游戏中。你只有 2-3 个买卖状态,等等。

不,这太原始了,否则根本不会是这个方向。


状态不是买/卖,买/卖是一个动作,而状态大致是当前环境的簇数,每个 状态 簇都有自己的动作......。

行动不一定是买/卖这样原始的,也可以是代理对未来的推理,例如....

比如,如果我现在在[i]价位买入,在交易蜡烛[i+1]时价格会下跌,但不会跌破某个价位,我会等待下一根蜡烛[i+2],但如果价格跌得更低,我会反向操作,如果不会,我会继续买入[i...20]。

这些都是关于未来的非难推理,并由此发现了有意识的poziya....。

但推理选项的组合数不胜数,为了避免一一列举,我们训练了一个 Q 函数,也就是说,代理只选择那些Q 值较 好的选项进行推理、

Q 神经元或矩阵是事先训练好的...

我是这么看的

 
peregrinus_vik #:
解决方案很简单。

)))) 是的,当然...

我害怕那些说 "很简单 "的人。

 
mytarmailS #:

不,它太原始了,否则根本不会是这个方向......


状态不是副塞尔,副塞尔是一个动作,而状态大致是当前环境的簇号,每个 状态 簇都有自己的动作...

但这个动作不一定是字节之类的原始动作,它可以是一个代理对未来的想法,例如....

比如,如果我现在在[i]价位买入,在交易蜡烛[i+1]时价格会下跌,但不会跌破某个价位,我会等待下一根蜡烛[i+2],但如果价格跌得更低,我会反向操作,如果不会,我会继续买入[i...20]。

这些都是对未来的非琐碎推理,会导致发现已实现的头寸....

但推理选项的组合数不胜数,我们不必一一列举,而是训练 Q 函数,即代理只对Q 值较 好的选项进行推理、

Q 神经元或矩阵是事先训练好的......

我是这么看的

我同意,"买入卖出不交易 "不是一种状态。有很多状态。))))))

 
Valeriy Yastremskiy #:

我同意,买入卖出而非交易不是各州的做法。有很多国家。)))))

状态并不多(如果是群集状态的话)。

对未来行动进行推理的选项很多。

但要在每种状态下找到最正确的行动,推理是必要的,此外,还应在每根蜡烛上对它们进行审查。

 
mytarmailS #:

不,它太原始了,否则根本不会是这个方向......


状态不是副塞尔,副塞尔是一个动作,而状态大致是当前环境的簇号,每个 状态 簇都有自己的动作...

但这个动作不一定是字节之类的原始动作,它可以是一个代理对未来的想法,例如....

比如,如果我现在在[i]价位买入,在交易蜡烛[i+1]时价格会下跌,但不会跌破某个价位,我会等待下一根蜡烛[i+2],但如果价格跌得更低,我会反向操作,如果不会,我会继续买入[i...20]。

这些都是对未来的非琐碎推理,会导致发现已实现的头寸....

但推理选项的组合数不胜数,我们不必一一列举,而是训练 Q 函数,即代理只对Q 值较 好的选项进行推理、

Q 神经元或矩阵是事先训练好的...

我是这么看的

当你开始正确看待它的时候 炫耀的因素就消失了

你说的是特工政策,多管齐下的方法我都写过了我是用书呆子的语言写的 但我忘了

没错,太原始了

这里就有一个在被禁言前对经纪人口吐白沫的人)。

 
Valeriy Yastremskiy #:

我同意,买入卖出而非交易不是各州的做法。有很多状态。))))

代理状态或行动状态。我建议你花几个月时间看看书,了解你所写的内容,并得出同样的结论)如果没有环境对代理行为的反应,就没有什么可优化的,它是一次性完成的。

有环境状态、代理状态、代理从状态到状态的转换矩阵(策略),同时考虑到环境的变化。环境是静态的,不会因为代理的行动而改变。也就是说,您只需定义代理在静态环境中的行动矩阵,即目标。目标的标记一次完成。
 
Maxim Dmitrievsky #:
代理状态或行动。我建议你花几个月时间读读书,了解你所写的内容,并得出同样的结论)如果没有环境对代理行为的反应,就没有什么可优化的,它是一次性完成的。

有环境状态、代理状态、代理从状态到状态的转换矩阵(策略),同时考虑到环境的变化。环境是静态的,不会因为代理的行动而改变。也就是说,您只需定义代理在静态环境中的行动矩阵,即目标。目标的标记一次完成。
如果我想惩罚代理无利可图的交易,那么
目标是 "做你想做的交易,但不做亏损的交易,并参与市场"。

你如何用标记来描述这一点?