Discusión sobre el artículo "Características del Wizard MQL5 que debe conocer (Parte 09): Combinación de clusterización de K-medias con ondas fractales"

 

Artículo publicado Características del Wizard MQL5 que debe conocer (Parte 09): Combinación de clusterización de K-medias con ondas fractales:

La clusterización de K-medias adopta el enfoque de agrupar puntos de datos como un proceso centrado inicialmente en una macro representación del conjunto de datos en la que se aplican centroides de clúster generados aleatoriamente. A continuación, dichos centroides se escalan y ajustan para representar con precisión el conjunto de datos. En el presente artículo, hablaremos de la clusterización y de varios usos de la misma.

El método de K-medias por defecto es muy lento e ineficiente, por lo que a menudo se denomina "ingenuo" en el sentido de que existen implementaciones más rápidas. Esto se debe en parte a la asignación aleatoria de los centroides iniciales al conjunto de datos al inicio de la optimización. Además, una vez seleccionados los centroides aleatorios, con frecuencia se utiliza el algoritmo de Lloyd para obtener el centroide correcto y, por tanto, los valores de categoría. Existen adiciones y alternativas al algoritmo de Lloyd, entre las que se incluyen: las rupturas naturales de Jenks (Jenks’ Natural Breaks), que se centran en la media del clúster en lugar de en la distancia a los centroides seleccionados; las k-medianas que, como su nombre indica, utilizan la mediana del clúster, en lugar del centroide o la media, como mediador para lograr una clasificación perfecta; los k-medoides que utilizan los puntos de datos reales dentro de cada clúster como centroide potencial, lo que lo hace más robusto al ruido y a los valores atípicos, según Wikipedia; y por último, la clusterización difusa, en la que los límites de los clústeres son difusos y los puntos de datos tienden a pertenecer a más de un clúster. Este último formato resulta interesante porque, en lugar de "categorizar" cada punto de datos, se utiliza una ponderación de regresión que cuantifica en qué medida un punto de datos determinado pertenece a cada uno de los clústeres aplicables.

Nuestro objetivo en este artículo será demostrar otro tipo de implementación de K-medias que se presenta como más eficiente, a saber: el k-medias++ Este algoritmo se basa en métodos de Lloyd como el K-medias ingenuo por defecto, pero difiere en su enfoque inicial para elegir centroides aleatorios. Este enfoque no resulta tan "aleatorio" como el K-medias ingenuo y, por ello, tiende a converger de forma mucho más rápida y eficaz.

Autor: Stephen Njuki