交易中的机器学习:理论、模型、实践和算法交易 - 页 386

 

好吧,那么这个0.8%是诚实获得的。显然,模型中有一个内置的算法来防止过度训练。


马克西姆-德米特里耶夫斯基

嗯,首先有一个非常大的集合,其次特征的性质根本不知道,像向量和Forest这样的线性模型显然不适合在这里,我们需要做一个复杂的非网格,也许这就是原因。


分类模型并不真正适合,是的。需要回归。因为评估结果不是通过模型的准确性,而是通过Logloss函数,它通常对回归结果给出更高的估计。

MultiLogLoss <- function(act, pred) {
  eps <- 1 e-15
  pred <- pmin(pmax(pred, eps), 1 - eps)
  sum(act * log(pred) + (1 - act) * log(1 - pred)) * -1 / length(act)
}

行为(实际)--预期结果,向量
pred (predicted) - 预测结果,向量

这个函数的分数越低越好。如果函数结果大于或等于0.6931472,模型就不好,这个结果表明是随机猜测。

而从第54轮的结果来看,在对新的、隐藏的参与者数据进行估算时,获胜者得到了0.690467,这是我们应该争取的结果。

 
交易员博士

好吧,那么这个0.8%是诚实获得的。显然,模型中有一个内置的反过拟合算法。



分类模型并不真正适合,是的。需要回归。因为评估结果不是通过模型的准确性,而是通过Logloss函数,这通常会给回归结果一个更高的分数

行为(实际)--预期结果,向量
pred (predicted) - 预测结果,向量

这个函数的分数越低越好。如果该函数的结果大于或等于0.6931472,则该模型是坏的,这个结果表明是随机猜测。

从第54轮的结果来看,在对隐藏在参赛者身上的新数据进行估计时,比赛的获胜者得到了0.690467,这是我们应该争取的结果。


回归NS在训练样本上产生了这个结果,它也是一个测试样本,不知道如何正确解释它,但对我来说,它看起来也不好 )也就是说,标准的简单神经网络在回归方面比分类没有优势,比其他分类方法 也没有优势。而且有规范化的输入和输出,在这种情况下,回归对我来说没有意义......


 

在竞争激烈的领域选择 文献


5087篇文献与标题和关键词中的GARCH, GJR-GARCH, EGARCH的搜索匹配。


GARCH模型应该是很聪明的,所有东西都是透明的模型。

1.原始序列被转换为增量,为log(Xi/ Xi-1)。

2.平均数是用ARIMA模型来模拟的

3.在偏度和峰度(厚尾)等意义上的分散性的细微差别被建模。

4.分布本身是有模型的。通常情况下,要么采取倾斜的t分布,要么采取倾斜的GED分布。


在考虑交易所的交易时,引入了具有切换模式的模型,无论是考虑到模型参数的变化,还是考虑到价差。


在文章中,经常有R语言的现成代码。

 
桑桑尼茨-弗门科

在竞争激烈的领域选择 文献


5087篇文献与标题和关键词中的GARCH, GJR-GARCH, EGARCH的搜索匹配。


GARCH模型应该是很聪明的,所有东西都是透明的模型。

1.原始序列被转换为增量,为log(Xi/ Xi-1)。

2.平均数是用ARIMA模型来模拟的

3.在偏度和峰度(厚尾)等意义上的分散性的细微差别被建模。

4.分布本身是有模型的。通常情况下,要么采取倾斜的t分布,要么采取倾斜的GED分布。


在考虑交易所的交易时,引入了具有切换模式的模型,无论是考虑到模型参数的变化,还是考虑到价差。


在文章中,经常有R的现成代码。


增量不以任何方式表明趋势,这又是怎么回事?我的模型也使用梯度来获得短期的准确性,但我也以一种巧妙的方式来看待趋势比率

啊,好吧,你可以看一下不同时间样本上的增量。你是否尝试过从不同的TF中训练Ns return-self?

 
马克西姆-德米特里耶夫斯基



增量不以任何方式表明趋势,这又是怎么回事?

是的,他们这样做。

模型要么预测增量,要么预测方向--这就是分类模型的作用。

我不知道有什么分类模型可以识别新闻上的动向。而对于GARCH来说,这就是模型的意义--计算出发生的运动。胖尾巴--这是在趋势破灭和急剧逆转发生时的新闻运动。


好吧,你可以在不同的时间框架内观察增长情况。

有几个时间段的GARCH模型很有意思。其含义如下。

假设我们预测H1的增量。该模型需要描述分布特征的输入数据。作为这样的输入数据(通常是波动性),我们采取的不是前一个小时,而是当前小时内的几分钟。

 
交易员博士

numerai今年已经改变了好几次规则。

它曾经是简单而好的--在训练表上训练一个模型,在测试表上检查误差,把预测结果发给他们,他们把预测结果推算到他们隐藏的测试表上,计算其误差。谁在隐藏表上的错误少,谁就赢了。这是非常好的,也是正确的,测试数据集上的错误确实与他们的隐藏数据集上的错误相吻合,所以你可以检查你的模型。

然后他们改变了一些东西,测试数据集上的错误不再与他们隐藏的检查数据集上的错误相关。所有来自高层的领导人都消失了,只是随机的人幸运地把他们的模型弄到了他们的隐藏检查表中,赢得了胜利。我认为这是Numerai的失败之处,是一些随意的垃圾,而不是一场比赛。

然后他们看到所有足够的人都从他们的随机竞赛中脱身,意识到他们的错误,并改变了一些东西。现在根据几个标准对预测进行评估。最让我生气的是 "独特性 "标准,如果有人以前发过类似的结果,那么你的结果就会被当作剽窃而被拒绝。也就是说,如果有几个人使用相同的框架来创建模型,那么早起并发送预测的人将得到钱。
在计算利润时,模型的准确性现在完全没有用。你可以得到错误0,排在第一名的位置,却什么也赚不到,因为第一名显示的是他们给自己下载的测试数据上的结果,第一名不再显示他们隐藏的验证表的结果。
目前他们的比赛的迭代是无稽之谈,没有透明度,一切都乱套了。等待着他们再次改变比赛中的一些东西,希望它能再次充分。

在他们改变规则之前,你从这个网站赚了多少真钱?
 

 
交易员博士

更像是某种回扣服务))。不像支付给数据科学家的费用

 

每周前100名的获奖者共获得3600美元的奖金,但奖金的数量减少得非常厉害。第一名获得1000美元,然后是435美元,然后是257美元,等等。即使你进入第十名(通常有超过500名参赛者),你也只能得到可怜的63美元。你被人欺负了。

我认为这次比赛更多的是将我的模型与领先者进行比较,学习不同的数据挖掘方法,而不是作为一种赚钱的方式。

 

我想知道排行榜上的分数(val logloss,垂直)与模型在新数据上得到的分数(live logloss,水平)有什么关系。(第55轮)

只有左下角长方形的人做得好。其余的人,即使进入了排行榜,也因新的数据而失去了机会。排行榜中最好的对数损失(右边最下面的两个点)在新数据上是最差的。

图上最左边的那个人赢了,它看起来像一个随机的离群点,而不是有目的的机器学习。

有趣的是,在验证数据上的logloss为0.690-0.691,几乎所有的人在新数据上也显示出良好的结果,我不知道这和它有什么关系。