Diskussion zum Artikel "Datenkennzeichnung für Zeitreihenanalyse (Teil 2): Datensätze mit Trendmarkern mit Python erstellen"

 

Neuer Artikel Datenkennzeichnung für Zeitreihenanalyse (Teil 2): Datensätze mit Trendmarkern mit Python erstellen :

In dieser Artikelserie werden verschiedene Methoden zur Kennzeichnung von Zeitreihen vorgestellt, mit denen Daten erstellt werden können, die den meisten Modellen der künstlichen Intelligenz entsprechen. Eine gezielte und bedarfsgerechte Kennzeichnung von Daten kann dazu führen, dass das trainierte Modell der künstlichen Intelligenz besser mit dem erwarteten Design übereinstimmt, die Genauigkeit unseres Modells verbessert wird und das Modell sogar einen qualitativen Sprung machen kann!

An diesem Punkt haben wir die grundlegende Arbeit getan, aber wenn wir genauere Daten erhalten wollen, brauchen wir weitere menschliche Eingriffe, wir werden hier nur ein paar Richtungen aufzeigen und keine detaillierte Demonstration machen.

1. die Überprüfung der Datenintegrität

Die Vollständigkeit bezieht sich auf das Fehlen von Dateninformationen, d. h. das Fehlen der gesamten Daten oder das Fehlen eines Feldes in den Daten. Datenintegrität ist eines der grundlegendsten Bewertungskriterien für die Datenqualität. Wenn beispielsweise die vorherigen Daten in der M15-Periode Börsendaten um 2 Stunden von den nächsten Daten abweichen, dann müssen wir die entsprechenden Tools verwenden, um die Daten zu vervollständigen. Natürlich ist es im Allgemeinen schwierig, Devisen- oder Börsendaten über unser Kundenterminal zu erhalten, aber wenn Sie Zeitreihen aus anderen Quellen wie Verkehrsdaten oder Wetterdaten erhalten, müssen Sie dieser Situation besondere Aufmerksamkeit schenken.

Die Integrität der Datenqualität ist relativ leicht zu beurteilen und kann im Allgemeinen anhand der erfassten und eindeutigen Werte in den Datenstatistiken bewertet werden. Wenn z. B. der Schlusskurs einer Aktie in der vorangegangenen Periode 1000 beträgt, der Eröffnungskurs in der nächsten Periode aber auf 10 steigt, müssen Sie prüfen, ob die Daten fehlen.


2. Prüfung der Genauigkeit der Datenkennzeichnung

Aus der Perspektive dieses Artikels kann die Methode zur Kennzeichnung von Daten, die wir oben implementiert haben, bestimmte Schwachstellen haben. Wir müssen uns nicht nur auf die Methoden in der Bibliothek pytrendseries verlassen, um genaue gekennzeichnete Daten zu erhalten, sondern auch, um die Daten zu visualisieren und zu beobachten, ob die Trend-Klassifizierung der Daten zu anfällig oder nicht nutzbar ist, weil einige wichtige Informationen verpasst wird. Zu diesem Zeitpunkt müssen wir die Daten analysieren. Wenn sie aufgeteilt werden müssten, müssen sie aufgeteilt werden, und wenn sie zusammengeführt werden müssten, müssen sie zusammengeführt werden. Diese Arbeit ist sehr mühsam und zeitaufwendig, und konkrete Beispiele werden hier vorerst nicht angeführt.

Die Genauigkeit bezieht sich darauf, ob die in den Daten gespeicherten Informationen richtig sind und ob die in den Daten gespeicherten Informationen anormal oder falsch sind. Anders als bei der Konsistenz handelt es sich bei Daten mit Genauigkeitsproblemen nicht nur um Inkonsistenzen in den Regeln. Konsistenzprobleme können durch inkonsistente Regeln für die Datenprotokollierung verursacht werden, aber nicht unbedingt durch Fehler.

3. Durchführung einiger grundlegender statistischen Überprüfungen, um festzustellen, ob die Kennzeichnungen angemessen sind

  • Integritätsverteilung: Die Vollständigkeit des Datensatzes lässt sich schnell und intuitiv erkennen.
  • Heatmap: Mit Heatmaps lässt sich die Korrelation zwischen zwei Variablen leicht beobachten.
  • Hierarchisches Clustering: Sie können sehen, ob die verschiedenen Klassen Ihrer Daten eng miteinander verbunden oder verstreut sind.
Natürlich geht es nicht nur um die oben genannten Methoden.

Autor: Yuqiang Pan