交易中的机器学习：理论、模型、实践和算法交易

mytarmailS 2022.11.02 14:54 #28111

Maxim Dmitrievsky #:

一年多前，当我还在写 RL 算法时，这里就讨论过这个问题。

我还不想回到过去，我也不想。

我不是站在标签的立场上，而是站在例如一些非常复杂的多细节代理行为策略的立场上。

Maxim Dmitrievsky 2022.11.02 15:33 #28112

mytarmailS #:

我说的不是标签的位置，而是代理行为的一些非常复杂的多步骤策略的位置。

你被表格式 RL 混淆了，在表格中，从一个状态到另一个状态的转换方向是最优化的，这些就是策略。这些表格后来被神经网络所取代。当代理有很多状态时，例如在游戏中。你只有 2-3 个买入/卖出状态等。然后通过奖励函数来优化这些状态的转换，例如通过对具有一定盈利条件的交易进行抽样，通过 NS 来优化策略。策略是环境与您希望过渡到的状态之间的关系。例如，指标值与交易方向之间的关系。

如果 NS 已经对所有情况进行了近似处理，并向您显示了您的操作错误，那么在表中进行 100500 次多次转换是毫无意义的。如果您需要先跳跃，然后射击、装弹、收集战利品、跑到另一侧等，则有必要这样做。这需要执行很多操作，而你只有 2-3 个。虽然老板就是老板）

我忘了补充一点，在游戏中，特工也会影响环境、改变环境，以及环境对特工的影响。这就是为什么你需要反复学习数千次才能掌握所有组合。而我们的情况并非如此，环境不会改变，所以我们只需一次就能完成。在这种情况下，强化学习就完全失去了强化学习的意义。你可以一次找到通往目标的最短路径。

peregrinus_vik 2022.11.03 05:13 #28113

解决方案非常简单，只需对数据集进行预处理。然后进行标准分析。然后，将每个输入作为目标变量，将每个 ML 的输出作为参数。每个输入的预测结果都会进行评估，不好的 "可预测 "结果会被丢弃。那么，那些通过过滤的输入将通过预测 ML 中的输出而被纳入工作模型。我会以这种方式扔掉不影响预测的芯片。

mytarmailS 2022.11.03 08:15 #28114

Maxim Dmitrievsky #:
这是指存在许多代理状态时，例如在游戏中。你只有 2-3 个买卖状态，等等。

不，这太原始了，否则根本不会是这个方向。

状态不是买/卖，买/卖是一个动作，而状态大致是当前环境的簇数，每个状态簇都有自己的动作......。

但行动不一定是买/卖这样原始的，也可以是代理对未来的推理，例如....

比如，如果我现在在[i]价位买入，在交易蜡烛[i+1]时价格会下跌，但不会跌破某个价位，我会等待下一根蜡烛[i+2]，但如果价格跌得更低，我会反向操作，如果不会，我会继续买入[i...20]。

这些都是关于未来的非难推理，并由此发现了有意识的poziya....。

但推理选项的组合数不胜数，为了避免一一列举，我们训练了一个 Q 函数，也就是说，代理只选择那些Q 值较好的选项进行推理、

Q 神经元或矩阵是事先训练好的...

我是这么看的

mytarmailS 2022.11.03 08:16 #28115

peregrinus_vik #:
解决方案很简单。

)))) 是的，当然...

我害怕那些说 "很简单 "的人。

Valeriy Yastremskiy 2022.11.03 08:20 #28116

mytarmailS #:

不，它太原始了，否则根本不会是这个方向......

状态不是副塞尔，副塞尔是一个动作，而状态大致是当前环境的簇号，每个状态簇都有自己的动作...

但这个动作不一定是字节之类的原始动作，它可以是一个代理对未来的想法，例如.... 。

比如，如果我现在在[i]价位买入，在交易蜡烛[i+1]时价格会下跌，但不会跌破某个价位，我会等待下一根蜡烛[i+2]，但如果价格跌得更低，我会反向操作，如果不会，我会继续买入[i...20]。

这些都是对未来的非琐碎推理，会导致发现已实现的头寸....

但推理选项的组合数不胜数，我们不必一一列举，而是训练 Q值函数，即代理只对Q 值较好的选项进行推理、

Q 神经元或矩阵是事先训练好的......

我是这么看的

我同意，"买入卖出不交易 "不是一种状态。有很多状态。))))))

mytarmailS 2022.11.03 08:37 #28117

Valeriy Yastremskiy #:

我同意，买入卖出而非交易不是各州的做法。有很多国家。)))))

状态并不多（如果是群集状态的话）。

对未来行动进行推理的选项很多。

但要在每种状态下找到最正确的行动，推理是必要的，此外，还应在每根蜡烛上对它们进行审查。

Maxim Dmitrievsky 2022.11.03 08:53 #28118

mytarmailS #:

不，它太原始了，否则根本不会是这个方向......

状态不是副塞尔，副塞尔是一个动作，而状态大致是当前环境的簇号，每个状态簇都有自己的动作...

但这个动作不一定是字节之类的原始动作，它可以是一个代理对未来的想法，例如.... 。

比如，如果我现在在[i]价位买入，在交易蜡烛[i+1]时价格会下跌，但不会跌破某个价位，我会等待下一根蜡烛[i+2]，但如果价格跌得更低，我会反向操作，如果不会，我会继续买入[i...20]。

这些都是对未来的非琐碎推理，会导致发现已实现的头寸....

但推理选项的组合数不胜数，我们不必一一列举，而是训练 Q值函数，即代理只对Q 值较好的选项进行推理、

Q 神经元或矩阵是事先训练好的...

我是这么看的

当你开始正确看待它的时候炫耀的因素就消失了

你说的是特工政策，多管齐下的方法我都写过了我是用书呆子的语言写的但我忘了

没错，太原始了

这里就有一个在被禁言前对经纪人口吐白沫的人)。

Maxim Dmitrievsky 2022.11.03 09:04 #28119

Valeriy Yastremskiy #:

我同意，买入卖出而非交易不是各州的做法。有很多状态。))))

代理状态或行动状态。我建议你花几个月时间看看书，了解你所写的内容，并得出同样的结论）如果没有环境对代理行为的反应，就没有什么可优化的，它是一次性完成的。

有环境状态、代理状态、代理从状态到状态的转换矩阵（策略），同时考虑到环境的变化。环境是静态的，不会因为代理的行动而改变。也就是说，您只需定义代理在静态环境中的行动矩阵，即目标。目标的标记一次完成。

mytarmailS 2022.11.03 10:38 #28120

Maxim Dmitrievsky #:
代理状态或行动。我建议你花几个月时间读读书，了解你所写的内容，并得出同样的结论）如果没有环境对代理行为的反应，就没有什么可优化的，它是一次性完成的。

有环境状态、代理状态、代理从状态到状态的转换矩阵（策略），同时考虑到环境的变化。环境是静态的，不会因为代理的行动而改变。也就是说，您只需定义代理在静态环境中的行动矩阵，即目标。目标的标记一次完成。

如果我想惩罚代理无利可图的交易，那么

目标是 "做你想做的交易，但不做亏损的交易，并参与市场"。

你如何用标记来描述这一点？

交易中的机器学习：理论、模型、实践和算法交易 - 页 2812