交易中的机器学习：理论、模型、实践和算法交易

Maxim Dmitrievsky 2023.08.04 10:51 #31661

mytarmailS #:

你自己见过这些数字吗？

0.99 次训练/测试，模型被截断到几次迭代。只有少数规则能很好地预测类别。

Forester 2023.08.04 11:13 #31662

Maxim Dmitrievsky #:

0.99 的训练/测试，模型被截断为几次迭代。只剩下几条规则能很好地预测类别。

TP=10，SL=1000？）

Maxim Dmitrievsky 2023.08.04 11:15 #31663

Forester #:

TP=10，SL=1000？）

不，如果你想做很多交易，这很有趣。

在每一栏都开新单

СанСаныч Фоменко 2023.08.04 11:18 #31664

Vladimir Perervenko #:

什么叫自制？理论上是有道理的，有一篇文章写得很好。有一个软件包叫 RLTv3.2.6，效果不错。请注意版本。

祝你好运

在我看来，不是自制的，如果满足以下条件并有具体例子的话。

最初，这个网站充满了自制的 "天才"，他们坐在厨房里发明了一些东西，使用他们头脑中的术语，并开始 "研究"，不仅仅是 "研究"，而是推翻现有的和公认的东西。

所有这些人都没有意识到，他们自制的代码一分钱都不值，因为这些代码并没有理论依据，而理论依据 都发表在严肃的期刊上，然后由受过相应培训的人进行讨论，讨论时间往往长达数年。然后，编写代码并由大量用户进行测试，只有这样，代码才适合工业使用。

讨论本地 "天才 "是没有意义的。

但是 katbust。

让我们比较一下 katbust 和 XGBoost 的文档，以了解非核心组织的暗箱操作和专业性非常相似的开发。

СанСаныч Фоменко 2023.08.04 11:22 #31665

Maxim Dmitrievsky #:
而主要的自作自受者是布雷曼，因为他没有用R语言写作。他真是个kolkhoznik。

学好 R，你才不会显得完全无知：实际上，R 中的所有软件包都不是用 R 编写的。通常都是 C++ 或 Fortran，而 R 只是访问。这就是为什么 R 中的计算密集型算法并不比 C++ 差。

Maxim Dmitrievsky 2023.08.04 11:23 #31666

СанСаныч Фоменко #:

学习 R，这样你才不会显得完全无知：几乎所有 R 软件包都不是用 R 编写的。通常是 C++ 或 Fortran，而 R 只是访问。这就是为什么 R 中的计算密集型算法并不比 C++ 差。

不会吧，我还是第一次听说。

还会有更多有启发性的信息吗？)

我已经到了 "猫扑"...)))

СанСаныч Фоменко 2023.08.04 11:25 #31667

mytarmailS 降维算法去除多余部分（改进模型），使模型的可重复性更高。
最后也许是点缀

我想知道如何在这样的数据上训练 MO？
这是一个测试样本。
你自己见过这样的数据吗？

很可能是再培训，因为它与绝对价格值有关。

Maxim Dmitrievsky 2023.08.06 17:39 #31668

编写一个函数来重新标注标签，使标签更容易预测特征，这样模型就会变得更加稳定。

如果你的数据集较小，你可以放弃它进行检查，并确保你的数据（或感到沮丧）。

对于使用 Python 的人来说

    c = coreset[coreset.columns[1:-4]] // ваш датасет без меток. Нужно брать только трейн/тест данные, на остальных не делать кластеризацию, иначе подгонка
    kmeans = KMeans(init='k-means++', n_clusters=clusters).fit(c) // кол-во кластеров - гиперпараметр
    coreset['clusters'] = kmeans.predict(c)
    mean_labels = coreset.groupby('clusters')['labels'].apply(lambda x: x.mean()) // считаем среднее по меткам каждого кластера
    coreset['labels'] = coreset.apply(lambda row: 0 if mean_labels[row['clusters']] < 0.5 else 1, axis=1) // если среднее больше 0.5, то для всех элементов кластера ставим метку 1 и наоборот

如果聚类具有代表性，模型会更稳定。因此，可以用蛮力法确定聚类的数量和聚类的芯片。

Aleksey Vyazmikin 2023.08.13 20:54 #31669

Aleksey Nikolayev #:

据我所知，在交互式会话中使用 R 的命令是注释出来的。首先要加载整个脚本以定义函数，然后逐行加载命令，并在每条命令后按回车键。这可能是科学出版物的标准--只依赖命令行，避免使用 Rstudio 等环境。

为了简洁起见，我在数据收集和类模板中调用了 CTree，这似乎也是不可避免的。

异常检测包含在目标中--它在寻找火灾异常频繁的地方。

PS.前段时间，我在信中提到了泊松分布的使用，在此将其开发成工作代码。

我还没有全部试过--我的一个任务卡住了。

我一定会尝试在自己的数据上运行它。我正在积累关于这个主题的各种解决方案。

关于保森分布- 理论上很有趣，但当我查看数据和序列时，比方说，一行中可能有 20 个 0，然后是 0 和 1 的混合，而且这些跳转是显著的，它们似乎与分布不一致。

Aleksey Nikolayev 2023.08.14 05:12 #31670

Aleksey Vyazmikin #:

关于 "保森分布"--理论上有点意思，但当我查看数据和序列时，比方说，一排中可能有 20 个 0，然后是 0 和 1 的混合，这些遗漏很重要，似乎与分布不一致。

我们的想法是把例子分成不同的组别，在这些组别中存在同质性。具体特征是否允许这样做并不确定。事实上，由于非平稳性等原因，也没有任何特征可以做到这一点。

我不打算详细研究这篇文章，因为它只涉及到我感兴趣的话题。 CHAID 稍微接近一些，但并不完全相同。

交易中的机器学习：理论、模型、实践和算法交易 - 页 3167