c = coreset[coreset.columns[1:-4]] // ваш датасет без меток. Нужно брать только трейн/тест данные, на остальных не делать кластеризацию, иначе подгонка
kmeans = KMeans(init='k-means++', n_clusters=clusters).fit(c) // кол-во кластеров - гиперпараметр
coreset['clusters'] = kmeans.predict(c)
mean_labels = coreset.groupby('clusters')['labels'].apply(lambda x: x.mean()) // считаем среднее по меткам каждого кластера
coreset['labels'] = coreset.apply(lambda row: 0if mean_labels[row['clusters']] < 0.5else1, axis=1) // если среднее больше 0.5, то для всех элементов кластера ставим метку 1 и наоборот
你自己见过这些数字吗?
0.99 次训练/测试,模型被截断到几次迭代。只有少数规则能很好地预测类别。
0.99 的训练/测试,模型被截断为几次迭代。只剩下几条规则能很好地预测类别。
TP=10,SL=1000?)
TP=10,SL=1000?)
不,如果你想做很多交易,这很有趣。
在每一栏都开新单什么叫自制?理论上是有道理的,有一篇文章写得很好。有一个软件包叫 RLTv3.2.6,效果不错。请注意版本。
祝你好运
在我看来,不是自制的,如果满足以下条件并有具体例子的话。
最初,这个网站充满了自制的 "天才",他们坐在厨房里发明了一些东西,使用他们头脑中的术语,并开始 "研究",不仅仅是 "研究",而是推翻现有的和公认的东西。
所有这些人都没有意识到,他们自制的代码一分钱都不值,因为这些代码并没有理论依据,而理论依据 都发表在严肃的期刊上,然后由受过相应培训的人进行讨论,讨论时间往往长达数年。然后,编写代码并由大量用户进行测试,只有这样,代码才适合工业使用。
讨论本地 "天才 "是没有意义的。
但是 katbust。
让我们比较一下 katbust 和 XGBoost 的文档,以了解非核心组织的暗箱操作和专业性非常相似的开发。
而主要的自作自受者是布雷曼,因为他没有用R语言写作。他真是个kolkhoznik。
学好 R,你才不会显得完全无知:实际上,R 中的所有软件包都不是用 R 编写的。通常都是 C++ 或 Fortran,而 R 只是访问。这就是为什么 R 中的计算密集型算法并不比 C++ 差。
学习 R,这样你才不会显得完全无知:几乎所有 R 软件包都不是用 R 编写的。通常是 C++ 或 Fortran,而 R 只是访问。这就是为什么 R 中的计算密集型算法并不比 C++ 差。
不会吧,我还是第一次听说。
还会有更多有启发性的信息吗?)
我已经到了 "猫扑"...)))
最后也许是点缀
我想知道如何在这样的数据上训练 MO?
这是一个测试样本。
你自己见过这样的数据吗?
很可能是再培训,因为它与绝对价格值有关。
编写一个函数来重新标注标签,使标签更容易预测特征,这样模型就会变得更加稳定。
如果你的数据集较小,你可以放弃它进行检查,并确保你的数据(或感到沮丧)。
对于使用 Python 的人来说
如果聚类具有代表性,模型会更稳定。因此,可以用蛮力法确定聚类的数量和聚类的芯片。据我所知,在交互式会话中使用 R 的命令是注释出来的。首先要加载整个脚本以定义函数,然后逐行加载命令,并在每条命令后按回车键。这可能是科学出版物的标准--只依赖命令行,避免使用 Rstudio 等环境。
为了简洁起见,我在数据收集和类模板中调用了 CTree,这似乎也是不可避免的。
异常检测包含在目标中--它在寻找火灾异常频繁的地方。
PS.前段时间,我在信中提到了泊松分布的使用,在此将其开发成工作代码。
我还没有全部试过--我的一个任务卡住了。
我一定会尝试在自己的数据上运行它。我正在积累关于这个主题的各种解决方案。
关于保森分布- 理论上很有趣,但当我查看数据和序列时,比方说,一行中可能有 20 个 0,然后是 0 和 1 的混合,而且这些跳转是显著的,它们似乎与分布不一致。
关于 "保森分布"--理论上有点意思,但当我查看数据和序列时,比方说,一排中可能有 20 个 0,然后是 0 和 1 的混合,这些遗漏很重要,似乎与分布不一致。
我们的想法是把例子分成不同的组别,在这些组别中存在同质性。具体特征是否允许这样做并不确定。事实上,由于非平稳性等原因,也没有任何特征可以做到这一点。
我不打算详细研究这篇文章,因为它只涉及到我感兴趣的话题。 CHAID 稍微接近一些,但并不完全相同。