交易中的机器学习：理论、模型、实践和算法交易

iwelimorn 2021.10.29 11:48 #24771

Maxim Dmitrievsky#:
在我看来，这里更多的是标准化而不是平衡的效果。另外，从分布中取样有助于避免过度训练

我没有理解错吧，样本越多，你的标志就越接近于标准化？

Maxim Dmitrievsky 2021.10.29 11:57 #24772

iwelimorn#:

我没有理解错吧，样本越多，标志就越接近标准化？

很难说最佳样本量是多少，可能取决于高斯混合物的成分数量。太大的抽样，加上有噪声的数据集，会导致产生非常相似的样本，即经常重复的样本出现的概率增加，因为高斯被用于密度估计和生成。因此，更有可能是 "不 "而不是 "是"。

我在某处读到，GMM在大数据集上的效果并不好。

iwelimorn 2021.10.29 12:06 #24773

Maxim Dmitrievsky#:
很难说最佳样本量是多少，它可能取决于高斯混合成分的数量。太大的样本，加上嘈杂的数据集，会导致产生非常相似的样本，即频繁重复的样本出现的概率增加，因为高斯用于密度估计和生成。所以更有可能是 "不 "而不是 "是"。

谢谢。我可能没有问对问题，我的意思是，是否有可能产生更多的样本，从而得到一个更标准化的样本。

Maxim Dmitrievsky 2021.10.29 13:00 #24774

iwelimorn#:

谢谢你。我可能没有问对问题，我的意思是，是否有可能产生更多的样本，从而得到一个更标准化的样本。

是的，当然了

Mihail Marchukajtes 2021.10.30 18:20 #24775

iwelimorn#:

谢谢你。我可能没有问对问题，我的意思是，是否有可能产生更多的样本，从而得到一个更标准化的样本。

重要的是在生成样本时要尽可能少的不一致，否则训练就没有用了。想象一下，在一种情况下，输入向量的值相同，目标值为1，而在下一种情况下，输入向量相同，目标值为0，那么算法应该怎么做？如何应对？所以增加训练样本只有在不导致矛盾增加的情况下才有意义。这是一个哲学上的问题。例如，我在100个训练样本上覆盖了M5的3个月的市场。作为一个例子...

Mihail Marchukajtes 2021.10.30 18:21 #24776

顺便说一下，据我所知，我们的队伍里有一位女士。这是一个非常罕见的案例，可以说是规则的例外......:-)

Dmytryi Nazarchuk 2021.10.30 18:27 #24777

Mihail Marchukajtes#:
在形成样本时，尽可能少的矛盾是很重要的，否则训练将是无用的。想象一下，在一种情况下，输入向量的值相同，目标值为1，而在下一种情况下，输入向量相同，目标值为0，那么算法应该怎么做？如何应对？所以增加训练样本只有在不导致矛盾增加的情况下才有意义。这是一个哲学上的问题。例如，我在100个训练样本上覆盖了M5的3个月的市场。作为一个例子...

你到底懂不懂你写的东西？

iwelimorn 2021.10.30 19:05 #24778

Mihail Marchukajtes#:
在形成样本时，尽可能少的矛盾是很重要的，否则训练将是无用的。想象一下，在一种情况下，输入向量的值相同，目标值为1，而在下一种情况下，输入向量相同，目标值为0，那么算法应该怎么做？如何应对？所以增加训练样本只有在不导致矛盾增加的情况下才有意义。这是一个哲学上的问题。例如，我在100个训练样本上覆盖了M5的3个月的市场。作为一个例子...

我同意你的观点，如果一个相同的例子描述了几种状态，那么当用任何可用的算法进行分类时，我们将得到接近1/n的概率，其中n是状态的数量。

但没有绝对相似的例子，它们在某种程度上是相似的。问题是如何检测这种 "相似性"。

三个月内M5上有100个例子...我想知道......你是否根据规则从原始样本中选择样本，然后在交易中使用这些样本？

Dmytryi Nazarchuk 2021.10.30 19:08 #24779

iwelimorn#:

我同意你的观点，如果同一个例子描述了几种状态，我们会得到一个接近1/n的概率，其中n是通过任何可用算法进行分类时的状态数。

但没有绝对相似的例子，它们在某种程度上是相似的。问题是如何检测这种 "相似性"。

三个月内M5上有100个例子...我想知道......你是否根据规则从原始样本中选择样本，然后在交易中使用这些样本？

如果训练样本中的同一组自变量只对应一个因变量，那么它就是一个确定性的系列。

那里没有什么可分类的--预测误差为0。

是的，这已经是痛苦了。

iwelimorn 2021.10.30 19:21 #24780

Dmytryi Nazarchuk#:

如果训练样本中的同一组自变量只对应一个因变量，那么它就是一个确定性的系列。

那里没有什么可以分类的--预测误差为0。

是的，这就是痛苦。

谢谢，也许这不是痛苦，而是我缺乏基本知识。

如果几组自变量对应于同一个变量，是否也是如此？

交易中的机器学习：理论、模型、实践和算法交易 - 页 2478