Discussão do artigo "Redes neurais de maneira fácil (Parte 79): consultas agregadas de características (FAQ)"

 

Novo artigo Redes neurais de maneira fácil (Parte 79): consultas agregadas de características (FAQ) foi publicado:

No artigo anterior, nos familiarizamos com um dos métodos de detecção de objetos em imagens. No entanto, o processamento de imagens estáticas é um pouco diferente do trabalho com séries temporais dinâmicas, como aquelas relacionadas à dinâmica dos preços que estamos analisando. Neste artigo, quero apresentar a você o método de detecção de objetos em vídeo, que é mais relevante para a nossa tarefa atual.

A maioria dos métodos que discutimos anteriormente analisa o estado do ambiente como algo estático, o que é consistente com a definição de um processo de Markov. Naturalmente, preenchemos a descrição do estado do ambiente com dados históricos para fornecer ao modelo o máximo de informações necessárias. Mas o modelo não avalia a dinâmica das mudanças nos estados. Isso também se aplica ao método apresentado no artigo anterior: DFFT foi desenvolvido para detectar objetos em imagens estáticas.

No entanto, observações dos movimentos dos preços indicam que a dinâmica das mudanças pode, às vezes, indicar a força e a direção do movimento futuro com probabilidade suficiente. Logicamente, agora voltamos nossa atenção para métodos de detecção de objetos em vídeo.

A detecção de objetos em vídeo tem uma série de características específicas e deve resolver o problema das mudanças nas características dos objetos causadas pelo movimento, que não são encontradas no domínio da imagem. Uma das soluções é usar informações temporais e combinar características de quadros adjacentes. O artigo "FAQ: Feature Aggregated Queries for Transformer-based Video Object Detectors" propõe uma nova abordagem para a detecção de objetos em vídeo. Os autores do artigo melhoram a qualidade das consultas para modelos baseados em Transformer, agregando-as. Para alcançar esse objetivo, é proposto um método prático para gerar e agregar consultas segundo as características dos quadros de entrada. Os resultados dos experimentos realizados no artigo demonstram claramente a eficácia do método proposto. As abordagens propostas podem ser estendidas a uma ampla gama de métodos para detectar objetos em imagens e vídeos para melhorar sua eficiência.

Autor: Dmitriy Gizlyk