Diskussion zum Artikel "Neuronale Netze leicht gemacht (Teil 77): Cross-Covariance Transformer (XCiT)"

 

Neuer Artikel Neuronale Netze leicht gemacht (Teil 77): Cross-Covariance Transformer (XCiT) :

In unseren Modellen verwenden wir häufig verschiedene Aufmerksamkeitsalgorithmen. Und am häufigsten verwenden wir wahrscheinlich Transformers. Ihr größter Nachteil ist der Ressourcenbedarf. In diesem Artikel wird ein neuer Algorithmus vorgestellt, der dazu beitragen kann, die Rechenkosten ohne Qualitätseinbußen zu senken.

Transformatoren zeigen ein großes Potenzial bei der Lösung von Problemen der Analyse verschiedener Sequenzen. Die Operation Selbstaufmerksamkeit (Self-Attention), die den Transformatoren zugrunde liegt, ermöglicht globale Interaktionen zwischen allen Token in der Sequenz. Damit ist es möglich, Abhängigkeiten innerhalb der gesamten analysierten Sequenz zu bewerten. Dies ist jedoch mit einer quadratischen Komplexität in Bezug auf Rechenzeit und Speicherverbrauch verbunden, was die Anwendung des Algorithmus auf lange Sequenzen erschwert. 

Um dieses Problem zu lösen, haben die Autoren des Artikels „XCiT: Cross-Covariance Image Transformers“ eine „transponierte“ Version von Selbstaufmerksamkeit (Self-Attention) vorgeschlagen, die über Merkmalskanäle statt über Token funktioniert, wobei die Interaktionen auf einer Kreuzkovarianzmatrix zwischen Schlüsseln und Abfragen basieren. Das Ergebnis ist eine Kreuzkovarianz-Aufmerksamkeit (XCA) mit linearer Komplexität in der Anzahl der Token, die eine effiziente Verarbeitung großer Datensequenzen ermöglicht. Der auf XCA basierende Cross-Covariance Image Transformer (XCiT) kombiniert die Genauigkeit herkömmlicher Transformatoren mit der Skalierbarkeit von Faltungsarchitekturen. Diese Arbeit bestätigt experimentell die Wirksamkeit und Allgemeinheit von XCiT. Die vorgestellten Experimente zeigen hervorragende Ergebnisse bei verschiedenen visuellen Benchmarks, einschließlich Bildklassifizierung, Objekterkennung und Instanzsegmentierung.

Autor: Dmitriy Gizlyk