Discussão do artigo "Redes neurais de maneira fácil (Parte 77): Cross-Covariance Transformer (XCiT)"

 

Novo artigo Redes neurais de maneira fácil (Parte 77): Cross-Covariance Transformer (XCiT) foi publicado:

Em nossos modelos, frequentemente usamos vários algoritmos de atenção. E, provavelmente, usamos Transformadores com mais frequência. A principal desvantagem deles é a exigência de recursos. Neste artigo, quero apresentar um algoritmo que ajuda a reduzir os custos computacionais sem perda de qualidade.

Os transformadores demonstram grande potencial na resolução de tarefas de análise de diversas sequências. A operação Self-Attention, que está na base dos transformadores, garante interações globais entre todos os tokens na sequência. Isso permite avaliar as interdependências dentro da sequência analisada. No entanto, isso vem acompanhado de complexidade quadrática em termos de tempo de computação e uso de memória, dificultando a aplicação do algoritmo a sequências longas. 

Para resolver esse problema, os autores do artigo "XCiT: Cross-Covariance Image Transformers" propuseram uma versão "transposta" do Self-Attention, que atua através dos canais de características, em vez de tokens, onde as interações são baseadas na matriz de cross-covariance entre chaves e consultas. O resultado é a atenção de cross-covariance (XCA) com complexidade linear em relação ao número de tokens, permitindo processar eficientemente grandes sequências de dados. O transformador de imagens de cross-covariance (XCiT), baseado no XCA, combina a precisão dos transformadores convencionais com a escalabilidade das arquiteturas convolucionais. No artigo original, a eficácia e a generalidade do XCiT são confirmadas experimentalmente. Os experimentos apresentados demonstram excelentes resultados em vários benchmarks visuais, incluindo classificação de imagens, detecção de objetos e segmentação de instâncias.

Autor: Dmitriy Gizlyk