Discussão do artigo "Anotação de dados na análise de série temporal (Parte 2): Criação de conjuntos de dados com rótulos de tendência usando Python"

 

Novo artigo Anotação de dados na análise de série temporal (Parte 2): Criação de conjuntos de dados com rótulos de tendência usando Python foi publicado:

Esta série de artigos apresenta várias técnicas destinadas a rotular séries temporais, técnicas essas que podem criar dados adequados à maioria dos modelos de inteligência artificial (IA). A rotulação de dados (ou anotação de dados) direcionada pode tornar o modelo de IA treinado mais alinhado aos objetivos e tarefas do usuário, melhorar a precisão do modelo e até mesmo ajudar o modelo a dar um salto qualitativo!

Até agora fizemos o trabalho principal, mas se quisermos obter dados mais precisos, precisaremos de mais intervenção manual no código. Eu destacarei aqui apenas algumas direções e não farei uma demonstração detalhada.

1. Verificação da integridade dos dados

Essa verificação pode encontrar informações sobre os dados que estão faltando, o que pode significar a ausência de todos os dados ou a ausência de um campo nos dados. A integridade dos dados é um dos critérios mais fundamentais para avaliar a qualidade dos dados. Por exemplo, se os dados anteriores do mercado de ações para o período M15 diferem em 2 horas dos dados seguintes, precisamos usar as ferramentas apropriadas para completar os dados. Claro, geralmente é difícil obter dados de taxas de câmbio ou dados do mercado de ações do nosso terminal cliente, mas se você está obtendo séries temporais de outras fontes, como dados de tráfego ou dados meteorológicos, você precisa prestar atenção especial a essa situação.

A integridade da qualidade dos dados é relativamente fácil de avaliar, e geralmente pode ser estimada pelos valores registrados e únicos na estatística dos dados. Por exemplo, se nos dados sobre o preço das ações no período anterior, o preço de fechamento foi de 1000, mas o preço de abertura se torna 10 no período seguinte, você precisa verificar se há dados faltando.


2. Verificação da precisão da rotulação de dados

O método de rotulação de dados implementado acima pode ter certas vulnerabilidades. Não podemos confiar apenas nos métodos apresentados na biblioteca pytrendseries para obter dados de rotulação precisos. É necessário visualizar adicionalmente os dados, observar se a classificação de tendências dos dados é muito sensível ou, ao contrário, insensível. Talvez seja necessário dividir os dados em partes ou combiná-los. Isso exige muito esforço e tempo, por isso, ainda não vale a pena dar exemplos específicos.

O indicador de precisão refere-se à informação registrada nos dados e pode detectar desvios nela. Ao contrário da sequência, dados com problemas de precisão não são apenas discrepâncias nas regras. Problemas de sequência podem ser causados por regras de registro de dados inconsistentes, mas não necessariamente por erros.

3. Faça uma verificação estatística básica para garantir que a rotulação seja justificada

  • Distribuição da integridade: verifique de forma rápida e intuitiva se um conjunto de dados está completo.
  • Mapa de calor: permite observar facilmente a correlação entre duas variáveis.
  • Agrupamento hierárquico: você pode ver quão intimamente relacionadas estão as diferentes classes dos seus dados.
Claro, isso não se limita apenas aos métodos listados acima.

Autor: Yuqiang Pan