交易中的机器学习：理论、模型、实践和算法交易

Forester 2021.12.25 11:34 #25361

Aleksey Vyazmikin#:

如果目标不是随机设置的呢？

怎么做？把其中一个输入复制到输出？它将学会所有的权利。我想我甚至已经试过了。

Aleksey Vyazmikin#:

刚刚做了一个实验--我的样本通常被分成3部分，所以我把它拿出来，合并成一个样本，训练了一个100棵树的模型，然后看到哪些预测因子没有被使用，就把它们屏蔽了。然后我像往常一样训练模型，在第二个样本中停止过度训练，并将第三个样本中的结果与我在不排除预测因素的情况下训练时的变量进行比较。结果发现，在所选的预测器上结果更好，在这里我发现很难得出这种效果的想法。"选择不同的预测器是因为区间上的样本不同而发生的，通过对整个样本的训练，我们自动选择了不会随着时间推移而失去意义的预测器。"

是的，你选择了在未来会产生影响的东西。它甚至可能在过去没有什么影响，但由于它在未来对整个样本的平均值有良好的影响，所以被选中。

Aleksey Vyazmikin#:

然而，这是否意味着样本越大，模型在较长的时间内就越稳健？能否以这种方式选择预测者进行学习，也就是说，它不会鼓励过度学习？

正如他们所说--市场正在发生变化。新的玩家进来，创造新的机器人和禁用旧的机器人，等等。我认为，在一个非常大的样本上，模型将得出所有这些变化的平均结果，可能是零。我认为你需要调整训练的深度以达到最大效率，并定期进行再训练。我自己也在做同样的实验（例如，2年的测试，周六的再训练，数据量从几天到一两年都试过）。
理论上，最好是自动定义每次再训练的训练样本量。但到目前为止，我还不知道怎么做。

Aleksey Vyazmikin#:
一般来说，我从CatBoost的创始人那里听到一个建议，我应该找到模型的超参数，然后愚蠢地训练所有可用的样本，以便在工作中使用该模型。

创造者不会建议坏的）我在Walking-Forward（VF）上拾取超参数，因为数据的一致性会保持，在这里你可以直接拾取历史的深度进行学习，通过退化旧数据的影响。如果数据不随时间变化，你也可以使用交叉验证法（CV），但这与市场无关。
在选择之后，当然我们应该学习到现在，并使用你在前进TP或TP的时间的模型。
通过在与测试图相同的图上进行训练，你在调整模型和超参数以适应这1个测试。而通过在KV或VF上训练10-50次--你可以找到一大段历史的最佳超参数。
也许这样更好，也许我只是懒得每周拿起一次超参数))因此，什么才是真正的好东西--实践会证明。

JeeyCi 2021.12.26 15:18 #25362

elibrarius#:
理论上，最好是以某种方式自动确定每次重新训练的训练样本量。但到目前为止，我还不知道如何
。

来确定平均

如果基因瓢的大小未知，则考虑再样本的大小。

n=（t^2*sigma^2）/delta_y^2

-用于随机抽样（对于分层抽样和连续抽样，公式会变得更复杂一些）

即我们必须确定所需的置信度P和95%置信度的相应可靠性系数t=2...。一个可接受的最大误差范围（如果你是一个交易员，分支专家应该自己知道）进入除数...和方差（sigma），方差是未知的，但可以从以前的观察中得知......

总的来说，这就是我写的疑惑，当我在谈论浮动窗口[原则上可以说是 "样本量"]和t统计学来定义一个平坦的趋势和 "我们在哪里 "的概率--在拒绝RS或吸收RS上建立起来...

当然，只要你的特征具有正态分布，而且它是影响结果的主要因素（你可能已经定义了它的dy/dx->min）...这不是一个多因素模型（我想在这种情况下，你可以从计算出来的值中取最大值...我认为）

以确定性状的份额

用同样的方法，但不使用平均值的误差和方差值，而使用份额的边际误差（delta_w）和替代性状的方差w（1-w）。

如果频率（w）甚至不近似地知道，计算时考虑到份额方差的最大值，0.5（1-0.5）=0.25。

cboe对于期权的不对称性评估包括到期日前几分钟的2倍最接近的K_opt（作为备选指标）...

或任何其他标志的味道和颜色（如果没有选择）。

p.s. 大致上像这里

p.p.s. 从逻辑上讲是这样的，如何在未知基因群体的模型建立中实现样本的充分性计算是一个原始数据和逻辑的可用性问题...但在我看来，2年似乎是人口的正常范围......印象中

Определение объема выборки

2013.08.16
baguzin.ru

Ранее мы рассмотрели методы построения доверительного интервала для математического ожидания генеральной совокупности. В каждом из рассмотренных случаев мы заранее фиксировали объем выборки, не учитывая ширину доверительного интервала. В реальных задачах определить объем выборки довольно сложно. Это зависит от наличия финансовых ресурсов...

[删除] 2021.12.26 15:48 #25363

JeeyCi#:

来确定平均

如果基因样本的大小未知，则考虑随机样本的再抽样量（对于分层和序列样本，该公式变得略为复杂）

n=（t^2*sigma^2）/delta_y^2

即有必要定义一个所需的置信概率P和相关的置信系数t=2，用于95%的置信水平...一个可接受的最大误差范围（如果你是一个交易员，行业专家应该自己知道）进入除数...和方差（sigma），方差是未知的，但可以从以前的观察中得知......

一般来说，这就是我写的疑惑，当我谈到浮动窗口[原则上，你可以说是 "样本大小"]和t统计，以定义平坦的趋势和 "我们在哪里 "的概率 - 建立在拒绝RS或吸收RS...

当然，只要你的特征具有正态分布，而且它是影响结果的主要因素（你可能已经定义了它的dy/dx->min）...这不是一个多因素模型（我想在这种情况下，你可以从计算出来的值中取最大值...我认为）

以确定性状的份额

相同的，但不是平均数的误差和方差值，而是使用份额的边际误差（delta_w）和替代性状的方差w（1-w）。

cboe对于期权来说，在估计不对称性时，把分钟数放到最接近的2个K_opt的到期日（作为替代属性）...

或任何其他味道和颜色的标志（如果没有选择）。

p.s. 大致上像这里

p.p.s. 从逻辑上讲是这样的，如何在未知基因群体的模型建立中实现样本的充分性计算是一个原始数据和逻辑的可用性问题...但在我看来，2年似乎是人口的正常范围......印象中

为了确定平均数。

(高+低)/2

Maxim Kuznetsov 2021.12.26 18:32 #25364

Vladimir Baskakov#:
，用于定义平均数。

(高+低)/2

我无意让你难过，但 "平均数"，（高+低）/2，严格说来根本不能叫，有更多的学术名称。事件发生的时间是未知的，而且是不规则的，不规律的。

[删除] 2021.12.26 18:33 #25365

Maxim Kuznetsov#:

我无意让你难过，但 "平均数"，（高+低）/2，严格说来根本不能叫，这种东西有更多的学术名称。事件发生的时间是未知的，而且是不规则的，不规律的。

我认为这是平均数中最平均的。

JeeyCi 2021.12.26 18:37 #25366

Maxim Kuznetsov#:

事件发生 的时间是未知的，也是不均衡和不规则的。

的确，出于习惯，我在考虑 "征兆 "时忽略了"事件"...。- 我一直忘了...谢谢你提醒我这个词...!- 根据逻辑判断，这就是贝叶斯定理的作用，所以我想

LenaTrap 2021.12.26 18:57 #25367

也许这很傻，但我不喜欢使用接近以外的东西。当我有一系列来自近处的观察（对不起），我总是知道观察之间有一个固定的时间段（它总是相同的，稳定的，并且为我所知）。但是，当使用低/高和不同的计算方法时，我发现.....，观察之间的随机时间段，这总是不同的，从一个观察到另一个。

Maxim Kuznetsov 2021.12.26 19:32 #25368

LenaTrap#:
也许这很傻，但我不喜欢用关闭以外的东西。当我有一系列来自近处的观察（对不起），我总是知道观察之间有一个固定的时间段（它总是相同的，稳定的，并且为我所知）。但是，当使用低/高和不同的计算方法时，我发现.....，观察之间的随机时间段，这总是不同的，从一个观察到另一个。

关于随机性和总是不同的当然是Machanuto......这实际上是研究所有这些喧嚣的全部目的--在时间和价格上或多或少准确地确定高/低 :-)

Aleksey Nikolayev 2021.12.26 19:51 #25369

LenaTrap#:
也许这很傻，但我不喜欢用关闭以外的东西。当我有一系列来自近处的观察（对不起），我总是知道观察之间有一个固定的时间段（它总是相同的，稳定的，并且为我所知）。但是，当使用低/高和不同的计算方法时，我发现.....，观察之间的随机时间段，这总是不同的，从一个观察到另一个。

如果严格从数学上应用，有必要使用开盘，因为只有对它来说，它的tick接收时刻是马尔可夫的--它被唯一地定义为开盘（在理想时间和没有缺失报价的假设下）。在其收到嘀嗒声的那一刻收盘，不能明确地定义为收盘，直到时间框架部分结束。

但更常见的是与近亲合作。可能，这和他们用每日报价工作的日子一样。

Andrei Trukhanovich 2021.12.26 19:58 #25370

Aleksey Nikolayev#:

如果数学方法是严格的，那么应该使用开盘，因为只有对它来说，它的刻度线到达的时刻是马尔可夫的--它被明确地定义为开盘。

从技术上讲，收盘是唯一具有可靠时间的价格，也就是说，在一个柱子换成另一个柱子的时候，价格正好等于收盘。

如果这第一个刻度线发生在条形图变化的10分钟后，这意味着开盘价将在此刻。

交易中的机器学习：理论、模型、实践和算法交易 - 页 2537