交易中的机器学习：理论、模型、实践和算法交易

Yury Reshetov 2016.11.02 17:16 #1891

安德烈-迪克

也就是说，这样做是有用的。因此，你应该做40次劈叉，而不是4次劈叉，这显然是不够的。对于4个核心来说，它的计算时间将延长10倍，但我想为了稳健性可以牺牲时间。

显然不是。

例如，对于日间交易来说，等待10个小时而不是1个小时的计算是不可接受的。即使我们把电脑放一晚上，我们也会得到一个基于不可避免的过期数据的模型。

因此，在计算时间和模拟质量之间做出合理的折衷是必要的。而最理想的变体是将所有可以并行计算的东西并行化，而所有不能并行化的东西都应该按顺序计算。

作为最后的手段，你可以升级到更大数量的核心，或者建立一个由几台个人电脑组成的计算集群。

我甚至还没有说到，机器学习算法代码往往也有一些进一步优化的潜在可能性。

也有可能，多任务处理的某些部分可以从CPU转移到GPU。

也就是说，有很多潜在的解决方案（这个清单可以一直列下去），在软件中 "做一个驼峰 "并不是最好的解决方案，而且，经验表明，往往是最不够的。

Распределенные вычисления в сети MQL5 Cloud Network

cloud.mql5.com

Заработать деньги, продавая мощности своего компьютера для сети распределенных вычислений MQL5 Cloud Network

Andrey Dik 2016.11.02 17:29 #1892

尤里-雷舍托夫。

不明显。

例如，等待10个小时而不是1个小时的计算，对于日间交易来说是不可接受的。即使你离开电脑过夜，你也会在明显过时的数据上得到一个模型。

因此，在计算时间和建模质量之间做出合理的妥协是必要的。而最好的方法是将所有可以并行计算的东西进行并行化，而不能并行化的东西必须按顺序计算。

作为最后的手段，可以升级到更大数量的内核，或者建立一个由几台个人电脑组成的计算集群。

我甚至没有说到机器学习算法代码往往有进一步优化的潜在机会。

也有可能一些多任务处理可以从CPU转移到GPU。

也就是说，有很多潜在的解决问题的方法（可以继续列举），在软件中 "做猪耳朵 "并不是最好的方法，而且经验表明往往是最不合适的。

我并不坚持 "驼峰选项"，只是问：数据将被分割成越多的变体，通过对结果做分析，可以获得更好的训练。比方说，在90%的情况下，我们看到模型在测试数据上产生了足够的结果，只有10%的情况下我们得到了过度训练，这意味着模型本身是有价值的。而如果是相反的情况，就值得回收。而如果你只把数据分成4个不同的变体，得到一个过度训练的模型的概率就非常高。

同样，我没有触及 "硬件 "方面，只是具体说明了 "软件 "方面。

Yury Reshetov 2016.11.02 17:41 #1893

Vizard_。
...
对已知的.....，不具有优势，但没有人会相信））

举出一个已知的...... "有优势 "的具体例子。

而从你那里除了毫无根据的批评，最后总是以你不给样品，不展示软件（都是严格保密的，证人被删除）而告终。但你得出了一些不切实际的数字，除了你，没有人能够证实，也没有人能够否认。

平庸的问题是一个缰绳：如果根据引文，你 "有机会接受 "92%和戈比的概括能力，为什么你还在从事空洞的批评，批评一些不 "具有已知的优势......"，而不从事购买：工厂、报纸、蒸汽船、岛屿、游艇等？还有，我什么时候能在《福布斯》的封面上看到你的脸？

СанСаныч Фоменко 2016.11.02 17:43 #1894

阿列克谢-伯纳科夫。

在线性模型中处理相互作用有明确的规则。它们比线性组合处理要复杂一些：https://www.r-bloggers.com/interpreting-interaction-coefficient-in-r-part1-lm/

但你必须在大量的组合中挖掘，才能找到有意义的互动。现在，这是一个无奈之举。

看了一下，谢谢。

尽管对 "互动 "一词有了新的理解，但我的疑惑在阅读后只会增加。

我的困惑是基于这样一个事实：统计中的任何数字都必须有某种内容。

以此方程为例，lm

zz ~ rsi*stoch

单独来看，每个指标都有一定的意义，但它们的产品的意义是什么？这种 "互动 "的含义是什么？或者我们只是得到一个新的未知内容的预测器，看看它对目标变量有什么影响？

Alexey Burnakov 2016.11.02 17:55 #1895

桑桑尼茨-弗门科。

看了一下，谢谢你。

读完后我的困惑只会增加，尽管是在对 "互动 "一词的新理解上。

我的困惑是基于这样一个事实：统计学中的任何数字都必须有某种内容。

以此方程为例，lm

zz ~ rsi*stoch

单独来看，每个指标都有一定的意义，但它们的产品的意义是什么？这种 "互动 "的含义是什么？或者我们只是得到一个新的未知内容的预测器，看看它对目标变量有什么影响？

有时听你说话很有趣 )

没有新的实体从乘法中得到，尽管互动完全算作经典回归中的乘法。

第一个预测器的斜率角度将取决于第二个预测器的水平。这就是互动的本质。这是一种简化。有一些细微的差别。但知道这样一个层级的所有系数后，我们可以说，例如，当X2水平=3时，X1水平增加1将使目标水平增加0.1。所以它是这样的。

Yury Reshetov 2016.11.02 17:59 #1896

安德烈-迪克

我不坚持 "驼峰变体"，我只是问：数据将被分成的变体越多，你就越能得到更好的训练和分析结果。

...

同样，我没有触及 "硬件 "方面，只是具体说明了 "软件 "方面。

比方说，任何一个傻瓜都可以直接插入一个10次迭代的循环，并将计算时间增加一个数量级，只为了微不足道地减少样本中部分模式分布的不规则概率。jPrediction的源代码属于公共领域，任何人都可以对其进行修改。

我更感兴趣的是把我的时间和精力花在以更有前途的方式实现目标上：创造一种对计算和计算机时间资源要求较低的算法，以训练具有更高通用性的模型。

Andrey Dik 2016.11.02 18:04 #1897

尤里-雷舍托夫。

比方说，任何一个傻瓜都可以采取10次迭代的周期，并将计算时间增加一个数量级，以便微不足道地减少样本中部分模式分布的不规则概率。jPrediction的源代码是公开的，任何人都可以对其进行修改。

我更感兴趣的是花时间和精力以更有前途的方式实现类似的目标：创造一种对计算机的计算和时间资源要求较低的算法。

尤里，我没有要求你改变或修改你的软件中的任何东西，我甚至对Java一窍不通，所以，尽管我想看一下你的代码，但我不明白那里有什么。

我只是问，理论上的问题，你怎么看，如果有可能把数据分成尽可能多的变体，会不会很有用？是或不是。

Yury Reshetov 2016.11.02 18:48 #1898

安德烈-迪克

...

只是问一下，一个理论上的问题，你认为能够把数据分解成尽可能多的选项会有什么好处吗？是的，或者不是。

讨论那些被 "数字而非技能 "淡化的任务是没有意义的。例如，如果一个挖掘机在一天内可以在n米的距离上挖掘一条沟，那么m个挖掘机就可以在相同的时间内在m*n米的距离上挖掘同样的沟渠。有什么可讨论的呢？如果挖沟的时间很关键，你必须把截止日期前剩余的时间除以一台挖土机每天能挖的距离，并为突发事件多准备几台挖土机。解决办法是微不足道的，没有什么可讨论的。

可以讨论一些任务，这些任务的解决方案并不那么微不足道，例如，如何在相同的时间内用更少的挖掘机来提高挖掘相同沟渠的生产率？已经有了新的选择，例如：用挖掘机取代挖土机，或者改进他们的铲子，等等，等等。

Andrey Dik 2016.11.02 18:55 #1899

尤里-雷舍托夫。

讨论由 "数字而非技巧 "解决的琐碎问题是没有意义的。例如，如果一个挖掘机在一天内可以挖掘n米的沟渠，那么m个挖掘机在相同的时间内可以挖掘m*n米的相同沟渠。有什么可讨论的呢？如果挖掘沟渠的关键时间，你需要将截止日期前的剩余时间除以挖掘机的数量，并为不可预见的情况预留几个额外的挖掘机。解决办法是微不足道的，没有什么可讨论的。

可以讨论一些任务，这些任务的解决方案并不那么微不足道，例如，如何在相同的时间内用更少的挖掘机来提高挖掘相同沟渠的生产率？已经有了一些新的选择，例如：用挖掘机取代挖土机，或者改进他们的铲子，等等，等等。

答案是花花绿绿的，我把它当作是。

假设我家里有一个由64个集群组成的机架，每个集群有4个8核CPU，我为什么不把它用于这个目的？特别是如果它能为我带来好处。