交易中的机器学习：理论、模型、实践和算法交易

Dr. Trader 2017.06.06 04:03 #3851

好吧，那么这个0.8%是诚实获得的。显然，模型中有一个内置的算法来防止过度训练。

马克西姆-德米特里耶夫斯基。

嗯，首先有一个非常大的集合，其次特征的性质根本不知道，像向量和Forest这样的线性模型显然不适合在这里，我们需要做一个复杂的非网格，也许这就是原因。

分类模型并不真正适合，是的。需要回归。因为评估结果不是通过模型的准确性，而是通过Logloss函数，它通常对回归结果给出更高的估计。

MultiLogLoss <- function(act, pred) {
  eps <- 1 e-15
  pred <- pmin(pmax(pred, eps), 1 - eps)
  sum(act * log(pred) + (1 - act) * log(1 - pred)) * -1 / length(act)
}

行为（实际）--预期结果，向量
pred (predicted) - 预测结果，向量

这个函数的分数越低越好。如果函数结果大于或等于0.6931472，模型就不好，这个结果表明是随机猜测。

而从第54轮的结果来看，在对新的、隐藏的参与者数据进行估算时，获胜者得到了0.690467，这是我们应该争取的结果。

Maxim Dmitrievsky 2017.06.06 04:39 #3852

交易员博士。

好吧，那么这个0.8%是诚实获得的。显然，模型中有一个内置的反过拟合算法。

分类模型并不真正适合，是的。需要回归。因为评估结果不是通过模型的准确性，而是通过Logloss函数，这通常会给回归结果一个更高的分数

行为（实际）--预期结果，向量
pred (predicted) - 预测结果，向量

这个函数的分数越低越好。如果该函数的结果大于或等于0.6931472，则该模型是坏的，这个结果表明是随机猜测。

从第54轮的结果来看，在对隐藏在参赛者身上的新数据进行估计时，比赛的获胜者得到了0.690467，这是我们应该争取的结果。

回归NS在训练样本上产生了这个结果，它也是一个测试样本，不知道如何正确解释它，但对我来说，它看起来也不好 )也就是说，标准的简单神经网络在回归方面比分类没有优势，比其他分类方法也没有优势。而且有规范化的输入和输出，在这种情况下，回归对我来说没有意义......

СанСаныч Фоменко 2017.06.06 06:45 #3853

在竞争激烈的领域选择文献

5087篇文献与标题和关键词中的GARCH, GJR-GARCH, EGARCH的搜索匹配。

GARCH模型应该是很聪明的，所有东西都是透明的模型。

1.原始序列被转换为增量，为log(Xi/ Xi-1)。

2.平均数是用ARIMA模型来模拟的

3.在偏度和峰度（厚尾）等意义上的分散性的细微差别被建模。

4.分布本身是有模型的。通常情况下，要么采取倾斜的t分布，要么采取倾斜的GED分布。

在考虑交易所的交易时，引入了具有切换模式的模型，无论是考虑到模型参数的变化，还是考虑到价差。

在文章中，经常有R语言的现成代码。

Maxim Dmitrievsky 2017.06.06 08:33 #3854

桑桑尼茨-弗门科。

在竞争激烈的领域选择文献

5087篇文献与标题和关键词中的GARCH, GJR-GARCH, EGARCH的搜索匹配。

GARCH模型应该是很聪明的，所有东西都是透明的模型。

1.原始序列被转换为增量，为log(Xi/ Xi-1)。

2.平均数是用ARIMA模型来模拟的

3.在偏度和峰度（厚尾）等意义上的分散性的细微差别被建模。

4.分布本身是有模型的。通常情况下，要么采取倾斜的t分布，要么采取倾斜的GED分布。

在考虑交易所的交易时，引入了具有切换模式的模型，无论是考虑到模型参数的变化，还是考虑到价差。

在文章中，经常有R的现成代码。

增量不以任何方式表明趋势，这又是怎么回事？我的模型也使用梯度来获得短期的准确性，但我也以一种巧妙的方式来看待趋势比率

啊，好吧，你可以看一下不同时间样本上的增量。你是否尝试过从不同的TF中训练Ns return-self？

СанСаныч Фоменко 2017.06.07 07:07 #3855

马克西姆-德米特里耶夫斯基。

增量不以任何方式表明趋势，这又是怎么回事？

是的，他们这样做。

模型要么预测增量，要么预测方向--这就是分类模型的作用。

我不知道有什么分类模型可以识别新闻上的动向。而对于GARCH来说，这就是模型的意义--计算出发生的运动。胖尾巴--这是在趋势破灭和急剧逆转发生时的新闻运动。

好吧，你可以在不同的时间框架内观察增长情况。

有几个时间段的GARCH模型很有意思。其含义如下。

假设我们预测H1的增量。该模型需要描述分布特征的输入数据。作为这样的输入数据（通常是波动性），我们采取的不是前一个小时，而是当前小时内的几分钟。

pantural 2017.06.08 15:35 #3856

交易员博士。

numerai今年已经改变了好几次规则。

它曾经是简单而好的--在训练表上训练一个模型，在测试表上检查误差，把预测结果发给他们，他们把预测结果推算到他们隐藏的测试表上，计算其误差。谁在隐藏表上的错误少，谁就赢了。这是非常好的，也是正确的，测试数据集上的错误确实与他们的隐藏数据集上的错误相吻合，所以你可以检查你的模型。

然后他们改变了一些东西，测试数据集上的错误不再与他们隐藏的检查数据集上的错误相关。所有来自高层的领导人都消失了，只是随机的人幸运地把他们的模型弄到了他们的隐藏检查表中，赢得了胜利。我认为这是Numerai的失败之处，是一些随意的垃圾，而不是一场比赛。

然后他们看到所有足够的人都从他们的随机竞赛中脱身，意识到他们的错误，并改变了一些东西。现在根据几个标准对预测进行评估。最让我生气的是 "独特性 "标准，如果有人以前发过类似的结果，那么你的结果就会被当作剽窃而被拒绝。也就是说，如果有几个人使用相同的框架来创建模型，那么早起并发送预测的人将得到钱。
在计算利润时，模型的准确性现在完全没有用。你可以得到错误0，排在第一名的位置，却什么也赚不到，因为第一名显示的是他们给自己下载的测试数据上的结果，第一名不再显示他们隐藏的验证表的结果。
目前他们的比赛的迭代是无稽之谈，没有透明度，一切都乱套了。等待着他们再次改变比赛中的一些东西，希望它能再次充分。

在他们改变规则之前，你从这个网站赚了多少真钱？

Dr. Trader 2017.06.08 17:19 #3857

Maxim Dmitrievsky 2017.06.08 17:51 #3858

交易员博士。

更像是某种回扣服务））。不像支付给数据科学家的费用

Dr. Trader 2017.06.08 19:19 #3859

每周前100名的获奖者共获得3600美元的奖金，但奖金的数量减少得非常厉害。第一名获得1000美元，然后是435美元，然后是257美元，等等。即使你进入第十名（通常有超过500名参赛者），你也只能得到可怜的63美元。你被人欺负了。

我认为这次比赛更多的是将我的模型与领先者进行比较，学习不同的数据挖掘方法，而不是作为一种赚钱的方式。

Dr. Trader 2017.06.08 19:36 #3860

我想知道排行榜上的分数（val logloss，垂直）与模型在新数据上得到的分数（live logloss，水平）有什么关系。(第55轮)

只有左下角长方形的人做得好。其余的人，即使进入了排行榜，也因新的数据而失去了机会。排行榜中最好的对数损失（右边最下面的两个点）在新数据上是最差的。

图上最左边的那个人赢了，它看起来像一个随机的离群点，而不是有目的的机器学习。

有趣的是，在验证数据上的logloss为0.690-0.691，几乎所有的人在新数据上也显示出良好的结果，我不知道这和它有什么关系。

交易中的机器学习：理论、模型、实践和算法交易 - 页 386