交易中的机器学习:理论、模型、实践和算法交易 - 页 2478

 
Maxim Dmitrievsky#:
在我看来,这里更多的是标准化而不是平衡的效果。另外,从分布中取样有助于避免过度训练

我没有理解错吧,样本越多,你的标志就越接近于标准化?

 
iwelimorn#:

我没有理解错吧,样本越多,标志就越接近标准化?

很难说最佳样本量是多少,可能取决于高斯混合物的成分数量。太大的抽样,加上有噪声的数据集,会导致产生非常相似的样本,即经常重复的样本出现的概率增加,因为高斯被用于密度估计和生成。因此,更有可能是 "不 "而不是 "是"。
我在某处读到,GMM在大数据集上的效果并不好。
 
Maxim Dmitrievsky#:
很难说最佳样本量是多少,它可能取决于高斯混合成分的数量。太大的样本,加上嘈杂的数据集,会导致产生非常相似的样本,即频繁重复的样本出现的概率增加,因为高斯用于密度估计和生成。所以更有可能是 "不 "而不是 "是"。

谢谢。我可能没有问对问题,我的意思是,是否有可能产生更多的样本,从而得到一个更标准化的样本。

 
iwelimorn#:

谢谢你。我可能没有问对问题,我的意思是,是否有可能产生更多的样本,从而得到一个更标准化的样本。

是的,当然了
 
iwelimorn#:

谢谢你。我可能没有问对问题,我的意思是,是否有可能产生更多的样本,从而得到一个更标准化的样本。

重要的是在生成样本时要尽可能少的不一致,否则训练就没有用了。想象一下,在一种情况下,输入向量的值相同,目标值为1,而在下一种情况下,输入向量相同,目标值为0,那么算法应该怎么做?如何应对?所以增加训练样本只有在不导致矛盾增加的情况下才有意义。这是一个哲学上的问题。例如,我在100个训练样本上覆盖了M5的3个月的市场。作为一个例子...
 
顺便说一下,据我所知,我们的队伍里有一位女士。这是一个非常罕见的案例,可以说是规则的例外......:-)
 
Mihail Marchukajtes#:
在形成样本时,尽可能少的矛盾是很重要的,否则训练将是无用的。想象一下,在一种情况下,输入向量的值相同,目标值为1,而在下一种情况下,输入向量相同,目标值为0,那么算法应该怎么做?如何应对?所以增加训练样本只有在不导致矛盾增加的情况下才有意义。这是一个哲学上的问题。例如,我在100个训练样本上覆盖了M5的3个月的市场。作为一个例子...

你到底懂不懂你写的东西?

 

Mihail Marchukajtes#:
在形成样本时,尽可能少的矛盾是很重要的,否则训练将是无用的。想象一下,在一种情况下,输入向量的值相同,目标值为1,而在下一种情况下,输入向量相同,目标值为0,那么算法应该怎么做?如何应对?所以增加训练样本只有在不导致矛盾增加的情况下才有意义。这是一个哲学上的问题。例如,我在100个训练样本上覆盖了M5的3个月的市场。作为一个例子...

我同意你的观点,如果一个相同的例子描述了几种状态,那么当用任何可用的算法进行分类时,我们将得到接近1/n的概率,其中n是状态的数量。

但没有绝对相似的例子,它们在某种程度上是相似的。问题是如何检测这种 "相似性"。


三个月内M5上有100个例子...我想知道......你是否根据规则从原始样本中选择样本 然后在交易中使用这些样本?

 
iwelimorn#:

我同意你的观点,如果同一个例子描述了几种状态,我们会得到一个接近1/n的概率,其中n是通过任何可用算法进行分类时的状态数。

但没有绝对相似的例子,它们在某种程度上是相似的。问题是如何检测这种 "相似性"。


三个月内M5上有100个例子...我想知道......你是否根据规则从原始样本中选择样本 然后在交易中使用这些样本?

如果训练样本中的同一组自变量只对应一个因变量,那么它就是一个确定性的系列。

那里没有什么可分类的--预测误差为0。

是的,这已经是痛苦了。

 
Dmytryi Nazarchuk#:

如果训练样本中的同一组自变量只对应一个因变量,那么它就是一个确定性的系列。

那里没有什么可以分类的--预测误差为0。

是的,这就是痛苦。

谢谢,也许这不是痛苦,而是我缺乏基本知识。

如果几组自变量对应于同一个变量,是否也是如此?