文章 "您应当知道的 MQL5 向导技术（第 09 部分）：K-Means 聚类与分形波配对"

MetaQuotes 2024.07.01 09:27

新文章您应当知道的 MQL5 向导技术（第 09 部分）：K-Means 聚类与分形波配对已发布：

“K-均值”聚类采用数据点分组的方式，该过程最初侧重于数据集的宏观视图，使用随机生成的聚类质心，然后放大并调整这些质心，从而准确表示数据集。我们将对此进行研究，并开拓一些它的用例。

默认情况下，“k-均值” 实际上非常缓慢且效率低下，这就是为什么它通常被称为朴素 “k-均值”，“朴素”意味着有更快的实现。这种苦差事的一部分源于在优化开始时，数据集是随机分配初始质心。此外，在随机选择质心之后，通常运用劳埃德（Lloyd）算法来求出到达的正确质心，从而得出类别值。劳埃德算法有一些补充和替代方案，其中包括：Jenks 的自然断层，它侧重于聚类均值，而不是到所选质心的距离；顾名思义，“K-中位数”取聚类中位数而非质心、或均值，作为指导朝向理想分类的代理；根据维基百科，使用每个集群内的实际数据点作为潜在质心的 “k-中位数”，从而针对噪声和异常值更具健壮性；最后是模糊式聚类，其中聚类边界未明确切割，其中数据点能够、且倾向于属于多个聚类。最后一种格式很有趣，因为并非对每个数据点进行“分类”，而是分配一个回归权重，则给定数据点属于每个适用集群的程度得以量化。

bannr

本文的意图是展示另一种被标榜为更有效的 “k-均值”实现，即 “k-均值++”。该算法依赖于劳埃德方法，像是默认的朴素 “k-均值”，但它在选择随机质心朝向的初始方式有所不同。这种方式不像朴素的 “k-均值”那样“随机”，因此，它往往比后者更快、更有效地收敛。

作者：Stephen Njuki

新评论