交易中的机器学习:理论、模型、实践和算法交易 - 页 3167

 
mytarmailS #:

你自己见过这些数字吗?

0.99 次训练/测试,模型被截断到几次迭代。只有少数规则能很好地预测类别。

 
Maxim Dmitrievsky #:

0.99 的训练/测试,模型被截断为几次迭代。只剩下几条规则能很好地预测类别。

TP=10,SL=1000?)

 
Forester #:

TP=10,SL=1000?)

不,如果你想做很多交易,这很有趣。

在每一栏都开新单
 
Vladimir Perervenko #:

什么叫自制?理论上是有道理的,有一篇文章写得很好。有一个软件包叫 RLTv3.2.6,效果不错。请注意版本。


祝你好运

在我看来,不是自制的,如果满足以下条件并有具体例子的话。

最初,这个网站充满了自制的 "天才",他们坐在厨房里发明了一些东西,使用他们头脑中的术语,并开始 "研究",不仅仅是 "研究",而是推翻现有的和公认的东西。

所有这些人都没有意识到,他们自制的代码一分钱都不值,因为这些代码并没有理论依据,而理论依据 都发表在严肃的期刊上,然后由受过相应培训的人进行讨论,讨论时间往往长达数年。然后,编写代码并由大量用户进行测试,只有这样,代码才适合工业使用。

讨论本地 "天才 "是没有意义的。

但是 katbust。

让我们比较一下 katbust 和 XGBoost 的文档,以了解非核心组织的暗箱操作和专业性非常相似的开发。

 
Maxim Dmitrievsky #:
而主要的自作自受者是布雷曼,因为他没有用R语言写作。他真是个kolkhoznik。

学好 R,你才不会显得完全无知:实际上,R 中的所有软件包都不是用 R 编写的。通常都是 C++ 或 Fortran,而 R 只是访问。这就是为什么 R 中的计算密集型算法并不比 C++ 差。

 
СанСаныч Фоменко #:

学习 R,这样你才不会显得完全无知:几乎所有 R 软件包都不是用 R 编写的。通常是 C++ 或 Fortran,而 R 只是访问。这就是为什么 R 中的计算密集型算法并不比 C++ 差。

不会吧,我还是第一次听说。

还会有更多有启发性的信息吗?)

我已经到了 "猫扑"...)))

 
mytarmailS 降维 算法去除多余部分(改进模型),使模型的可重复性更高。

最后也许是点缀


我想知道如何在这样的数据上训练 MO?

这是一个测试样本。

你自己见过这样的数据吗?




很可能是再培训,因为它与绝对价格值有关。

 

编写一个函数来重新标注标签,使标签更容易预测特征,这样模型就会变得更加稳定。

如果你的数据集较小,你可以放弃它进行检查,并确保你的数据(或感到沮丧)。

对于使用 Python 的人来说

    c = coreset[coreset.columns[1:-4]] // ваш датасет без меток. Нужно брать только трейн/тест данные, на остальных не делать кластеризацию, иначе подгонка
    kmeans = KMeans(init='k-means++', n_clusters=clusters).fit(c) // кол-во кластеров - гиперпараметр
    coreset['clusters'] = kmeans.predict(c)
    mean_labels = coreset.groupby('clusters')['labels'].apply(lambda x: x.mean()) // считаем среднее по меткам каждого кластера
    coreset['labels'] = coreset.apply(lambda row: 0 if mean_labels[row['clusters']] < 0.5 else 1, axis=1) // если среднее больше 0.5, то для всех элементов кластера ставим метку 1 и наоборот
如果聚类具有代表性,模型会更稳定。因此,可以用蛮力法确定聚类的数量和聚类的芯片。
 
Aleksey Nikolayev #:

据我所知,在交互式会话中使用 R 的命令是注释出来的。首先要加载整个脚本以定义函数,然后逐行加载命令,并在每条命令后按回车键。这可能是科学出版物的标准--只依赖命令行,避免使用 Rstudio 等环境。

为了简洁起见,我在数据收集和类模板中调用了 CTree,这似乎也是不可避免的。

异常检测包含在目标中--它在寻找火灾异常频繁的地方。


PS.前段时间,我在信中提到了泊松分布的使用,在此将其开发成工作代码。

我还没有全部试过--我的一个任务卡住了。

我一定会尝试在自己的数据上运行它。我正在积累关于这个主题的各种解决方案。

关于保森分布- 理论上很有趣,但当我查看数据和序列时,比方说,一行中可能有 20 个 0,然后是 0 和 1 的混合,而且这些跳转是显著的,它们似乎与分布不一致。

 
Aleksey Vyazmikin #:

关于 "保森分布"--理论上有点意思,但当我查看数据和序列时,比方说,一排中可能有 20 个 0,然后是 0 和 1 的混合,这些遗漏很重要,似乎与分布不一致。

我们的想法是把例子分成不同的组别,在这些组别中存在同质性。具体特征是否允许这样做并不确定。事实上,由于非平稳性等原因,也没有任何特征可以做到这一点。

我不打算详细研究这篇文章,因为它只涉及到我感兴趣的话题。 CHAID 稍微接近一些,但并不完全相同。