文章 "您应当知道的 MQL5 向导技术(第 09 部分):K-Means 聚类与分形波配对"

 

新文章 您应当知道的 MQL5 向导技术(第 09 部分):K-Means 聚类与分形波配对已发布:

“K-均值”聚类采用数据点分组的方式,该过程最初侧重于数据集的宏观视图,使用随机生成的聚类质心,然后放大并调整这些质心,从而准确表示数据集。我们将对此进行研究,并开拓一些它的用例。

默认情况下,“k-均值” 实际上非常缓慢且效率低下,这就是为什么它通常被称为朴素 “k-均值”,“朴素”意味着有更快的实现。这种苦差事的一部分源于在优化开始时,数据集是随机分配初始质心。此外,在随机选择质心之后,通常运用 劳埃德(Lloyd)算法 来求出到达的正确质心,从而得出类别值。劳埃德算法有一些补充和替代方案,其中包括:Jenks 的自然断层,它侧重于聚类均值,而不是到所选质心的距离;顾名思义,“K-中位数”取聚类中位数而非质心、或均值,作为指导朝向理想分类的代理;根据维基百科,使用每个集群内的实际数据点作为潜在质心的 “k-中位数”,从而针对噪声和异常值更具健壮性;最后是模糊式聚类,其中聚类边界未明确切割,其中数据点能够、且倾向于属于多个聚类。最后一种格式很有趣,因为并非对每个数据点进行“分类”,而是分配一个回归权重,则给定数据点属于每个适用集群的程度得以量化。

bannr

本文的意图是展示另一种被标榜为更有效的 “k-均值”实现,即 “k-均值++”。该算法依赖于劳埃德方法,像是默认的朴素 “k-均值”,但它在选择随机质心朝向的初始方式有所不同。这种方式不像朴素的 “k-均值”那样“随机”,因此,它往往比后者更快、更有效地收敛。

作者:Stephen Njuki