Diskussion zum Artikel "MQL5-Assistent-Techniken, die Sie kennen sollten (Teil 09): K-Means-Clustering mit fraktalen Wellen"

MetaQuotes 2024.02.29 08:56

Neuer Artikel MQL5-Assistent-Techniken, die Sie kennen sollten (Teil 09): K-Means-Clustering mit fraktalen Wellen :

Das K-Means-Clustering verfolgt den Ansatz, Datenpunkte als einen Prozess zu gruppieren, der sich zunächst auf die Makroansicht eines Datensatzes konzentriert und zufällig generierte Clusterzentren verwendet, bevor er heranzoomt und diese Zentren anpasst, um den Datensatz genau darzustellen. Wir werden uns dies ansehen und einige Anwendungsfälle ausnutzen.

Standardmäßig ist k-Means sehr langsam und ineffizient, weshalb es oft als naives k-Means bezeichnet wird, wobei das „naiv“ impliziert, dass es schnellere Implementierungen gibt. Ein Teil dieses Aufwands ergibt sich aus der zufälligen Zuordnung der anfänglichen Zentren zum Datensatz zu Beginn der Optimierung. Außerdem werden nach der Auswahl der zufälligen Mittelpunkte, Lloyds Algorithmus verwendet, um den richtigen Schwerpunkt und damit die richtigen Kategoriewerte zu ermitteln. Es gibt Ergänzungen und Alternativen zum Lloyd's-Algorithmus, z. B: Jenks' natürliche Brüche bei der der Schwerpunkt auf dem Mittelwert der Cluster und nicht auf dem Abstand zu den gewählten Zentren liegt; k-medians das, wie der Name schon sagt, den Cluster-Median und nicht den Schwerpunkt oder den Mittelwert als Proxy für die ideale Klassifizierung verwendet; k-medoids das tatsächliche Datenpunkte innerhalb jedes Clusters als potenziellen Schwerpunkt verwendet und dadurch robuster gegenüber Rauschen und Ausreißern ist, wie Wikipedia berichtet; und schließlich Fuzzy-Clustering bei dem die Clustergrenzen nicht eindeutig sind und Datenpunkte zu mehr als einem Cluster gehören können und dies auch tun. Dieses letzte Format ist interessant, weil nicht jeder Datenpunkt „klassifiziert“ wird, sondern eine regressive Gewichtung zugewiesen wird, die angibt, wie sehr ein bestimmter Datenpunkt zu jedem der anwendbaren Cluster gehört.

bannr

In diesem Artikel wollen wir eine weitere Art der k-Means-Implementierung vorstellen, die als effizienter gilt, und zwar k-Means++. Dieser Algorithmus stützt sich auf Lloyds Methoden wie der naive k-Means-Algorithmus, unterscheidet sich jedoch in der anfänglichen Herangehensweise an die Auswahl der zufälligen Zentren. Dieser Ansatz ist nicht so „zufällig“ wie der naive k-Means-Ansatz und konvergiert daher tendenziell viel schneller und effizienter als letzterer.

Autor: Stephen Njuki

Neuer Kommentar