Diskussion zum Artikel "Neuronale Netze leicht gemacht (Teil 78): Decoderfreier Objektdetektor mit Transformator (DFFT)"

 

Neuer Artikel Neuronale Netze leicht gemacht (Teil 78): Decoderfreier Objektdetektor mit Transformator (DFFT) :

In diesem Artikel schlage ich vor, das Thema der Entwicklung einer Handelsstrategie aus einem anderen Blickwinkel zu betrachten. Wir werden keine zukünftigen Kursbewegungen vorhersagen, sondern versuchen, ein Handelssystem auf der Grundlage der Analyse historischer Daten aufzubauen.

Die Decoder-freie, vollständig Transformer-basierte Methode (DFFT) ist ein effizienter Objektdetektor, der vollständig auf Decoder-freien Transformatoren basiert. Der Schwerpunkt des Transformer-Backbones liegt auf der Objekterkennung. Er extrahiert sie in vier Maßstäben und sendet sie an das nächste Modul zur Dichtevorhersage, das nur aus einem Kodierer besteht. Das Vorhersagemodul aggregiert zunächst das mehrskalige Merkmal zu einer einzigen Merkmalskarte unter Verwendung des skalierten Kodierers (Scale-Aggregated Encoder).

Anschließend schlagen die Autoren der Methode vor, den aufgabenorientierten Kodierer (Task-Aligned Encoder) für den gleichzeitigen Merkmalsabgleich bei Klassifikations- und Regressionsproblemen zu verwenden.

Der Backbone (DOT, Detection-Oriented Transformer) wurde entwickelt, um mehrstufige Merkmale mit strenger Semantik zu extrahieren. Es stapelt hierarchisch ein Einbettungsmodul und vier DOT-Stufen. Das neue semantisch erweiterte Aufmerksamkeitsmodul aggregiert die semantischen Informationen auf niedriger Ebene der beiden aufeinanderfolgenden Stufen von DOT. 

Bei der Verarbeitung von hochauflösenden Merkmalskarten für Vorhersagen der Dichte reduzieren herkömmliche Transformationsblöcke die Rechenkosten, indem sie die mehrköpfige Selbstaufmerksamkeit (MSA) durch die Schicht der lokalen räumlichen Aufmerksamkeit und eine voreingenommene, fensterbasierte mehrköpfige Selbstaufmerksamkeit (SW-MSA) ersetzen. Diese Struktur verringert jedoch die Erkennungsleistung, da sie nur mehrskalige Objekte mit begrenzter Semantik auf niedriger Ebene extrahiert.

Autor: Dmitriy Gizlyk