交易中的机器学习:理论、模型、实践和算法交易 - 页 4

 
阿列克谢-伯纳科夫

NS做得很好。

随机森林不能处理这样的任务,其中一组变量的互动。而每个预测因子的个别显著性都有意为零。

我没有看到证据表明NS在什么方面做得很好。

过度学习是科学领域,特别是模型建立领域的一个世界性的恶习。

因此需要对三组进行误差。

  • 学习套路。拨浪鼓理解的方式(OOB,测试,验证)就可以了。
  • 从日期上看,是在训练集之外的集合。
  • 另一个集子,在日期的意义上,是在训练集之外。

最后两组在到达终点站时是不混合的,基地在酒吧后面。

这三组的误差应该是差不多的。同时,你必须固定你在训练模型时采取的预测因子集。

 
阿列克谢-伯纳科夫


随机森林无法处理这样的问题,即一组变量的互动。而每个预测因子的个别显著性都有意为零。

你的想法是考虑到预测因素之间的相互作用,这是统计学的一场革命。直到现在,我还认为预测因素之间的互动是邪恶的。不仅预测因子本身通常是非平稳的,而且我们还试图说明这些非平稳随机过程之间的关系。

在机器学习中,人们认为必须摆脱相互影响的变量。此外,还有非常有效的算法,如主成分法,它可以摆脱相互作用,并将相互作用的预测因子集转换为独立的预测因子集。

 
桑桑尼茨-弗门科

我没有看到任何证据表明NS已经应对了任何事情。

过度学习是科学领域,特别是模型建立领域的一个世界性的恶习。

因此需要对三组进行误差。

  • 学习套路。拨浪鼓理解的方式(OOB、测试、验证)就可以了。
  • 从日期上看,是在训练集之外的集合。
  • 另一个集子,在日期的意义上,是在训练集之外。

最后两组在到达终点站时是不混合的,在酒吧后面的基地。

这三组的误差应该是差不多的。也就是说,你必须在训练模型时固定采取的预测因子集。

我们这样说吧。尽管这不是任务的一部分。我将布置一个验证样本,在其上运行训练好的模型,并测量输出的预测准确性。

但同样,这也是没有必要的。请注意,我在推断模式的基础上再次写了验证。

附加的文件:
 

嵌入在数据中的一个模式。

Количество по полю input_19 output
input_1 input_3 input_5 input_7 input_9 input_11 0 1 сумма предикторов четность
1 1 1 1 1 1 143 6 ИСТИНА
1 1 1 1 1 2 100 7 ЛОЖЬ
1 1 1 1 2 1 121 7 ЛОЖЬ
1 1 1 1 2 2 119 8 ИСТИНА
1 1 1 2 1 1 114 7 ЛОЖЬ
1 1 1 2 1 2 124 8 ИСТИНА
1 1 1 2 2 1 105 8 ИСТИНА
1 1 1 2 2 2 102 9 ЛОЖЬ
1 1 2 1 1 1 101 7 ЛОЖЬ
1 1 2 1 1 2 131 8 ИСТИНА
1 1 2 1 2 1 122 8 ИСТИНА
1 1 2 1 2 2 114 9 ЛОЖЬ
1 1 2 2 1 1 111 8 ИСТИНА
1 1 2 2 1 2 98 9 ЛОЖЬ
1 1 2 2 2 1 123 9 ЛОЖЬ
1 1 2 2 2 2 112 10 ИСТИНА
1 2 1 1 1 1 128 7 ЛОЖЬ
1 2 1 1 1 2 114 8 ИСТИНА
1 2 1 1 2 1 111 8 ИСТИНА
1 2 1 1 2 2 126 9 ЛОЖЬ
1 2 1 2 1 1 143 8 ИСТИНА
1 2 1 2 1 2 95 9 ЛОЖЬ
1 2 1 2 2 1 108 9 ЛОЖЬ
1 2 1 2 2 2 117 10 ИСТИНА
1 2 2 1 1 1 112 8 ИСТИНА
1 2 2 1 1 2 132 9 ЛОЖЬ
1 2 2 1 2 1 92 9 ЛОЖЬ
1 2 2 1 2 2 134 10 ИСТИНА
1 2 2 2 1 1 110 9 ЛОЖЬ
1 2 2 2 1 2 114 10 ИСТИНА
1 2 2 2 2 1 120 10 ИСТИНА
1 2 2 2 2 2 108 11 ЛОЖЬ
2 1 1 1 1 1 109 7 ЛОЖЬ
2 1 1 1 1 2 133 8 ИСТИНА
2 1 1 1 2 1 99 8 ИСТИНА
2 1 1 1 2 2 115 9 ЛОЖЬ
2 1 1 2 1 1 123 8 ИСТИНА
2 1 1 2 1 2 116 9 ЛОЖЬ
2 1 1 2 2 1 131 9 ЛОЖЬ
2 1 1 2 2 2 119 10 ИСТИНА
2 1 2 1 1 1 96 8 ИСТИНА
2 1 2 1 1 2 120 9 ЛОЖЬ
2 1 2 1 2 1 111 9 ЛОЖЬ
2 1 2 1 2 2 99 10 ИСТИНА
2 1 2 2 1 1 132 9 ЛОЖЬ
2 1 2 2 1 2 110 10 ИСТИНА
2 1 2 2 2 1 93 10 ИСТИНА
2 1 2 2 2 2 106 11 ЛОЖЬ
2 2 1 1 1 1 100 8 ИСТИНА
2 2 1 1 1 2 127 9 ЛОЖЬ
2 2 1 1 2 1 127 9 ЛОЖЬ
2 2 1 1 2 2 101 10 ИСТИНА
2 2 1 2 1 1 119 9 ЛОЖЬ
2 2 1 2 1 2 120 10 ИСТИНА
2 2 1 2 2 1 99 10 ИСТИНА
2 2 1 2 2 2 106 11 ЛОЖЬ
2 2 2 1 1 1 133 9 ЛОЖЬ
2 2 2 1 1 2 97 10 ИСТИНА
2 2 2 1 2 1 100 10 ИСТИНА
2 2 2 1 2 2 116 11 ЛОЖЬ
2 2 2 2 1 1 119 10 ИСТИНА
2 2 2 2 1 2 118 11 ЛОЖЬ
2 2 2 2 2 1 102 11 ЛОЖЬ
2 2 2 2 2 2 128 12 ИСТИНА
 
桑桑尼茨-弗门科

我没有看到任何证据表明NS已经应对了一些事情。

Neuronka解决了这个问题,用Rattle的代码连接日志。在调用神经元时,代码中有几处改动--我增加了最大的迭代次数,并删除了直接从输入到输出的连接,绕过了中间层(skip=TRUE)。因为这两个限制破坏了一切。

我对新文件进行了验证,两种情况下的错误几乎都是0%(从第二个文件进行验证时只有一个错误)。

但由于NS就像一个黑匣子,所以无法知道解决方案的逻辑。你可以看一下权重,确定对每个输入的平均绝对值,并画一个图。而且人们会知道,1、3、5、7、9、11比其他的更重要。然而,其余的输入也由于某种原因被使用;零权重无处可寻。换句话说,事实证明,学习一开始就发生了,然后我们可以确定重要的输入。

附加的文件:
 
Dr.Trader:

Neuronka解决了这个问题,用Rattle的代码连接日志。在调用神经元时,代码中有几处改动--我增加了最大的迭代次数,并删除了直接从输入到输出的连接,绕过了中间层(skip=TRUE)。因为这两个限制破坏了一切。

我对新文件进行了验证,两种情况下的错误几乎都是0%(从第二个文件进行验证时只有一个错误)。

但由于NS就像一个黑匣子,所以无法知道解决方案的逻辑。你可以看一下权重,确定对每个输入的平均绝对值,并画一个图。而且人们会知道,1、3、5、7、9、11比其他的更重要。然而,其余的输入也因为某种原因被使用;零权重无处可寻。换句话说,它是反过来的--首先我们学习,然后我们确定重要的投入。

这是真的。其余的输入是噪音。这就是许多方法的缺点--噪音变量没有被完全消除。

也许有必要延长教学时间,分步进行。

但总的说来,很好。NS解决了一个困难的问题。
 
SanSanych Fomenko:

我没有看到任何证据表明NS已经应对了任何事情。

过度学习是科学领域,特别是模型建立领域的一个世界性的恶习。

因此需要对三组进行误差。

  • 学习套路。拨浪鼓理解的方式(OOB、测试、验证)就可以了。
  • 从日期上看,是在训练集之外的集合。
  • 另一个集子,在日期的意义上,是在训练集之外。

最后两组在到达终点站时是不混合的,在酒吧后面的基地。

这三组的误差应该是差不多的。这样做,你将不得不固定你在训练模型时采取的预测因子集。

显而易见的事情需要证明吗?在训练过程中,携带矛盾数据的输入的权重下降,也就是说,我们可以说传入的矛盾数据被阻止了。

在这种情况下不存在重新训练的问题,因为训练好的网络 不用于任何其他目的。

问题是这样的方法是否值得。是不是有点重炮了。

 
德米特里-费多塞耶夫

这种方法是否合适是个问题。炮兵不是有点重吗?

你可以尝试另一种方法。但我认为补救措施符合问题的要求。
 
阿列克谢-伯纳科夫
你可以尝试另一种方式。但我认为补救措施符合问题的要求。
它完成了工作,而且做得很好。但我总是想知道是否有更有效、更简单的东西。
 
德米特里-费多塞耶夫
它完成了工作,而且做得很好。但我总是想知道是否有更有效、更简单的东西。
除非你尝试,否则你不会明白。通常的内含物和例外情况都不会起作用。还有什么呢?