Discussão do artigo "Redes neurais de maneira fácil (Parte 76): explorando diversos modos de interação (Multi-future Transformer)"

 

Novo artigo Redes neurais de maneira fácil (Parte 76): explorando diversos modos de interação (Multi-future Transformer) foi publicado:

Neste artigo, continuamos o tema de previsão do movimento de preços. E convido você a conhecer a arquitetura do Multi-future Transformer. A ideia principal é decompor a distribuição multimodal do futuro em várias distribuições unimodais, permitindo modelar eficientemente diversos modos de interação entre os agentes na cena.

O núcleo do modelo MFT é o módulo de interação paralela, que consiste em vários blocos de interação em estrutura paralela e estuda as características futuras dos movimentos dos agentes para cada modo. Os três cabeçalhos de previsão incluem:

  • Decodificador de movimento,
  • Decodificador de avaliação do agente,
  • Decodificador de avaliação da cena.

Eles são responsáveis por decodificar as trajetórias futuras de cada agente e avaliar os indicadores de confiabilidade para cada trajetória prevista e cada modo da cena. Nesta arquitetura, os caminhos pelos quais os sinais diretos e reversos de cada modo passam são independentes entre si, e cada caminho contém um bloco de interação único, que garante a interação de informações entre os sinais do mesmo modo. Consequentemente, os blocos de interação podem capturar simultaneamente os padrões de interação correspondentes de diferentes modos. Porém, os codificadores e os cabeçalhos de previsão são comuns a cada modo, enquanto os blocos de interação são parametrizados como objetos diferentes. Assim, cada distribuição unimodal, que teoricamente possui diferentes parâmetros, pode ser modelada de uma maneira mais eficiente em termos de parâmetros. Visualização do método pelo autor apresentada abaixo.

Autor: Dmitriy Gizlyk