Обсуждение статьи "Разметка данных в анализе временных рядов (Часть 2):Создаем наборы данных с маркерами тренда с помощью Python"

 

Опубликована статья Разметка данных в анализе временных рядов (Часть 2):Создаем наборы данных с маркерами тренда с помощью Python:

В этой серии статей представлены несколько методов разметки временных рядов, которые могут создавать данные, соответствующие большинству моделей искусственного интеллекта (ИИ). Целевая разметка данных может сделать обученную модель ИИ более соответствующей пользовательским целям и задачам, повысить точность модели и даже помочь модели совершить качественный скачок!

На данный момент мы проделали основную работу, но если мы хотим получить более точные данные, нам потребуется дальнейшее ручное вмешательство в код. Я укажу здесь лишь несколько направлений и не буду приводить подробную демонстрацию.

1. Проверка целостности данных

Проверка может обнаружить, что информация о данных отсутствует, что может означать отсутствие всех данных или отсутствие поля в данных. Целостность данных является одним из наиболее фундаментальных критериев оценки качества данных. Например, если предыдущие данные фондового рынка за период M15 отличаются на 2 часа от следующих данных, то нам необходимо использовать соответствующие инструменты для завершения данных. Конечно, как правило, сложно получить данные о валютных курсах или данные о фондовом рынке из нашего клиентского терминала, но если вы получаете временные ряды из других источников, таких как данные о трафике или о погоде, вам необходимо обратить особое внимание на эту ситуацию.

Целостность качества данных относительно легко оценить, и ее обычно можно оценить по зарегистрированным и уникальным значениям в статистике данных. Например, если в данных о цене акций в предыдущем периоде цена закрытия равна 1000, но цена открытия становится 10 в следующем периоде, вам необходимо проверить, отсутствуют ли данные.


2. Проверка точности разметки данных

Метод разметки данных, реализованный выше, может иметь определенные уязвимости. Мы не можем полагаться лишь на методы, представленные в библиотеке pytrendseries для получения точных данных разметки. Необходимо дополнительно визуализировать данные, наблюдать за тем, будет ли классификация трендов данных слишком чувствительной или наоборот нечувствительной. Возможно, данные понадобится разбить на части или объединить. Эта работа требует много усилий и времени, поэтому приводить конкретные примеры пока нет смысла.

Показатель точности относится к информации, записанной в данных, и может обнаружить отклонения в ней. В отличие от последовательности, данные с проблемами точности — это не просто несоответствия в правилах. Проблемы с последовательностью могут быть вызваны несогласованными правилами регистрации данных, но не обязательно ошибками.

3. Проведите базовую статистическую проверку, чтобы убедиться, что разметка обоснована

  • Распределение целостности: быстро и интуитивно проверяйте полноту набора данных.
  • Тепловая карта: позволяет легко наблюдать корреляцию между двумя переменными.
  • Иерархическая кластеризация: вы можете увидеть, насколько тесно связаны разные классы ваших данных.
Конечно, это касается не только вышеперечисленных методов.

Автор: Yuqiang Pan