交易中的机器学习:理论、模型、实践和算法交易 - 页 3171

 
Aleksey Vyazmikin #:

如果在第一次迭代中随机选择价格,测试/考试样本的结果会有很大变化吗?

我自己回答--是的,会的。

我随机选择了第一个量子段,排除信号(字符串)1000 次。

这里有几张示例 gif,不同的随机第一量子迭代过程是如何进行的(可以是叶子)。


下面是中间迭代时刻的静态图片--选择和随机化的不同阶段。

可以得出什么结论?

1.你可能会很幸运,随机找到一个有效的模式:) 2.

2.如果不减少错误模式的数量,就很难仅利用贪婪原则建立模型。

3.您需要开发一些方法来估计在量子片段或薄片中观察到的规律性。

4.随机性并不能证明机器学习的成功。

5.成功需要一个逻辑上有效的模型。

6.测试样本的成功并不总是意味着考试样本的成功,反之亦然。

还能得出哪些结论?

 
Aleksey Vyazmikin #:
...

可以得出什么结论?

1.您可能会走运,随机找到一个工作模型:)

2.如果不减少错误模式的数量,就很难仅仅利用 "贪婪 "原则建立模型。

3. 您需要制定方法来估计在量子段或量子片中观察到的规律性。

4.随机性并不能证明机器学习的成功。

5.成功需要一个逻辑上有效的模型。

6.测试样本的成功并不一定意味着考试样本的成功,反之亦然。

还能得出哪些结论?

我在讨论过程中忽略了您的量化方法,抱歉,请提醒我。

时间序列的量化是非常重要的,例如,用 renko 方法量化价格,我们会得到 SB(至少在统计学上是相关的),所以 "量化它,不量化它,你还是会得到 xxx "这句话至少显得轻描淡写,因为如果有破坏信息的量化,那么就可能有提取信息的量化。当然,前提是蜱流中存在信息(我们热切地希望如此,否则 MO 的应用将毫无意义)。

 

Andrey Dik #:

使用 renko 方法对价格进行量化,我们可以得到 SB(至少与统计相关)

我认为 SB 不会超过柱状图。

Andrey Dik# 当然,前提是刻度流中存在信息(我们热切希望如此,否则 MO 的使用将毫无意义)。
我认为还没有人在这里使用 MO 研究过 ticks。
 
Forester #:

我想,除了酒吧,没有比这更 SB 的了。

我认为 SB 要大得多,因为单杠的统计数据与 SB 的表现截然不同。

Forester#:

我不认为这里有人用 MO 探索过提基酒。

也许没有,至少没有对系列进行量化。

 

也就是说,不是寻找规律性,而是寻找价格(tick)序列(我不想使用 "时间序列")的状态,而这些状态是永远无法实现的,也不会在历史上出现。

这样就可以利用边界条件来制定对交易者有利的策略。

 
Andrey Dik #:

对不起,我在讨论过程中忽略了您的量化方法,请提醒我。

量化截点 "的概念很简单--它是预测因子的范围,在样本的每一行上都有一个数值。范围内的任何东西都成为一个单位。

划分范围的方法可以多种多样,我使用的既有 CatBoost 中内置的变体(在 bousting 中通常用于减少所需 RAM 和降低维度),也有我自己的一些变体,例如不同的数字序列。

在预测器以某种方式利用所获得的网格划分为不同范围后,我们会依次对每个区段的信息值进行评估。

如果属于某个类别的概率与样本平均值相比有 5%或更大的偏移,就会被视为有价值的信息,同时信号的数量及其在样本中的分布也会被考虑在内。

如果样本具有二进制目标,我们就会得到两组量子段,其中命中 0 或 1 的概率会相应地发生变化。

我们创建一个新的样本,其中每个量子段都有自己的一列--如果在该范围内有信号--则写 "1",如果没有--则写 "0"。

 
是什么阻碍了你像我在这里做的那样对数列进行转换/量化 https://www.mql5.com/ru/forum/86386/page3166#comment_48559717。
或类似的方法。
 
Aleksey Vyazmikin #:

答案是肯定的。

我随机选择了第一个量子段,排除信号(字符串)1000 次。

下面是几个 gifs 例子,说明了不同的随机第一量子段(可以是叶子)是如何进行的。


下面是中间迭代时刻的静态图片--选择和随机化的不同阶段。

可以得出什么结论?

1.您可能会幸运地随机找到一个工作模型:)

2.如果不减少错误模式的数量,就很难仅仅利用 "贪婪 "原则来建立模型。

3. 您需要制定方法来估计在量子段或量子片中观察到的规律性。

4.随机性并不能证明机器学习的成功。

5.成功需要一个逻辑上有效的模型。

6.测试样本的成功并不一定意味着考试样本的成功,反之亦然。

还能得出什么结论?

你可以得出结论,你这几年一直在胡说八道。或者,你可能只是做了随机抽样,而你现在正在这样做。
 
Aleksey Vyazmikin #:

属于某个类别的概率与样本平均值的偏差达到或超过 5%,就会被认为是有价值的信息,信号的数量及其在样本中的分布也是如此。

在我看来,这就像是马克西姆最近写过的 "π-黑客"(pi-hacking)。除非使用一些统计测试来确定分配量子的重要性,否则这肯定是他干的。

我曾经举过一个简单的例子,在 SB 上选择一周中最适合交易的时间(这显然是不存在的)。虽然只有 5*24=120 个变量,但总能找到这样一个小时(我想时间间隔是半年)。这里也存在 "抽样稳定性"。

 
Andrey Dik #:

即不是寻找规律性,而是寻找价格(刻度)序列(我不想使用 "时间序列")的状态,而这种状态是永远无法实现的,在历史上也不会出现。

这样就可以利用边界条件来制定对交易者有利的策略。

在时间序列分析中,唯一有效的方法就是寻找规律,并通过各种手段排除异常值。

如果它被定义为某个永恒的序列,或者根本不是一个序列,而是,比方说,一个堆栈或一堆,可能还有其他选择 😁。