Mihail Marchukajtes#: 在形成样本时,尽可能少的矛盾是很重要的,否则训练将是无用的。想象一下,在一种情况下,输入向量的值相同,目标值为1,而在下一种情况下,输入向量相同,目标值为0,那么算法应该怎么做?如何应对?所以增加训练样本只有在不导致矛盾增加的情况下才有意义。这是一个哲学上的问题。例如,我在100个训练样本上覆盖了M5的3个月的市场。作为一个例子...
Mihail Marchukajtes#: 在形成样本时,尽可能少的矛盾是很重要的,否则训练将是无用的。想象一下,在一种情况下,输入向量的值相同,目标值为1,而在下一种情况下,输入向量相同,目标值为0,那么算法应该怎么做?如何应对?所以增加训练样本只有在不导致矛盾增加的情况下才有意义。这是一个哲学上的问题。例如,我在100个训练样本上覆盖了M5的3个月的市场。作为一个例子...
在我看来,这里更多的是标准化而不是平衡的效果。另外,从分布中取样有助于避免过度训练
我没有理解错吧,样本越多,你的标志就越接近于标准化?
我没有理解错吧,样本越多,标志就越接近标准化?
很难说最佳样本量是多少,它可能取决于高斯混合成分的数量。太大的样本,加上嘈杂的数据集,会导致产生非常相似的样本,即频繁重复的样本出现的概率增加,因为高斯用于密度估计和生成。所以更有可能是 "不 "而不是 "是"。
谢谢。我可能没有问对问题,我的意思是,是否有可能产生更多的样本,从而得到一个更标准化的样本。
谢谢你。我可能没有问对问题,我的意思是,是否有可能产生更多的样本,从而得到一个更标准化的样本。
谢谢你。我可能没有问对问题,我的意思是,是否有可能产生更多的样本,从而得到一个更标准化的样本。
在形成样本时,尽可能少的矛盾是很重要的,否则训练将是无用的。想象一下,在一种情况下,输入向量的值相同,目标值为1,而在下一种情况下,输入向量相同,目标值为0,那么算法应该怎么做?如何应对?所以增加训练样本只有在不导致矛盾增加的情况下才有意义。这是一个哲学上的问题。例如,我在100个训练样本上覆盖了M5的3个月的市场。作为一个例子...
你到底懂不懂你写的东西?
Mihail Marchukajtes#:
在形成样本时,尽可能少的矛盾是很重要的,否则训练将是无用的。想象一下,在一种情况下,输入向量的值相同,目标值为1,而在下一种情况下,输入向量相同,目标值为0,那么算法应该怎么做?如何应对?所以增加训练样本只有在不导致矛盾增加的情况下才有意义。这是一个哲学上的问题。例如,我在100个训练样本上覆盖了M5的3个月的市场。作为一个例子...
我同意你的观点,如果一个相同的例子描述了几种状态,那么当用任何可用的算法进行分类时,我们将得到接近1/n的概率,其中n是状态的数量。
但没有绝对相似的例子,它们在某种程度上是相似的。问题是如何检测这种 "相似性"。
三个月内M5上有100个例子...我想知道......你是否根据规则从原始样本中选择样本, 然后在交易中使用这些样本?
我同意你的观点,如果同一个例子描述了几种状态,我们会得到一个接近1/n的概率,其中n是通过任何可用算法进行分类时的状态数。
但没有绝对相似的例子,它们在某种程度上是相似的。问题是如何检测这种 "相似性"。
三个月内M5上有100个例子...我想知道......你是否根据规则从原始样本中选择样本, 然后在交易中使用这些样本?
如果训练样本中的同一组自变量只对应一个因变量,那么它就是一个确定性的系列。
那里没有什么可分类的--预测误差为0。
是的,这已经是痛苦了。
如果训练样本中的同一组自变量只对应一个因变量,那么它就是一个确定性的系列。
那里没有什么可以分类的--预测误差为0。
是的,这就是痛苦。
谢谢,也许这不是痛苦,而是我缺乏基本知识。
如果几组自变量对应于同一个变量,是否也是如此?