記事「時系列マイニングのためのデータラベル(第2回):Pythonを使ってトレンドマーカー付きデータセットを作成する」についてのディスカッション

 

新しい記事「時系列マイニングのためのデータラベル(第2回):Pythonを使ってトレンドマーカー付きデータセットを作成する」はパブリッシュされました:

この連載では、ほとんどの人工知能モデルに適合するデータを作成できる、いくつかの時系列のラベル付け方法を紹介します。ニーズに応じて的を絞ったデータのラベル付けをおこなうことで、訓練済みの人工知能モデルをより期待通りの設計に近づけ、モデルの精度を向上させ、さらにはモデルの質的飛躍を助けることができます。

この時点で基本的な作業は完了しましたが、より正確なデータを取得したい場合は、さらに人間の介入が必要です。ここではいくつかの方向性を指摘するだけで、詳細なデモンストレーションはおこないません。

1. データの整合性確認

完全性とは、データ情報が欠落しているかどうかを指します。これには、データ全体が欠落しているか、データ内のフィールドが欠落している可能性があります。データの完全性はデータ品質の最も基本的な評価基準の1つです。たとえば、M15期間の株式市場データの前のデータが次のデータと2時間異なる場合、対応するツールを使用してデータを完成させる必要があります。もちろん、クライアント端末から外国為替データや株式市場データを取得することは一般的に困難ですが、交通データや気象データなど、他のソースから時系列データを取得する場合は、特に注意する必要があります。

データ品質の完全性は比較的簡単に評価でき、通常はデータ統計に記録された一意の値によって評価できます。たとえば、前の期間の株価データの終値が1000だったが、次の期間の始値が10になった場合、データが欠落していないか確認する必要があります。



2. データラベルの正確性を確認する

この記事の観点から見ると、上記で実装したデータ ラベル付けメソッドには特定の脆弱性がある可能性があります。正確なラベル付けデータを取得するには、pytrendseriesライブラリで提供されるメソッドに依存するだけでなく、データを視覚化し、傾向があるかどうかを観察する必要もあります。データの分類があまりにも影響を受けやすい、または鈍いため、いくつかの重要な情報が失われています。現時点では、データを分析する必要があります。分割する必要がある場合は分割し、結合する必要がある場合は結合する必要があります。この作業には、完了するには多大な労力と時間がかかるため、ここでは具体的な例は当面提供しません。

正確性とは、データに記録されている情報が正しいかどうか、データに記録されている情報に異常や間違いがないかを指します。一貫性とは異なり、精度に問題があるデータは、単なるルールの不一致ではありません。一貫性の問題は、データ ログのルールの不一致によって発生する可能性がありますが、必ずしもエラーが原因であるとは限りません。

3. ラベルが合理的かどうかを確認するために、基本的な統計検証を実行します。

  • 整合性の配布:データセットの完全性を迅速かつ直観的に確認します。
  • ヒートマップ:ヒートマップを使用すると、2 つの変数間の相関関係を簡単に観察できます。
  • 階層的クラスタリング:データのさまざまなクラスが密接に関連しているか、分散しているかを確認できます。
もちろん、上記の方法だけではありません。

作者: Yuqiang Pan