記事「ニューラルネットワークが簡単に(第78回):Transformerを用いたデコーダなしの物体検出器(DFFT)」についてのディスカッション

 

新しい記事「ニューラルネットワークが簡単に(第78回):Transformerを用いたデコーダなしの物体検出器(DFFT)」はパブリッシュされました:

この記事では、取引戦略の構築という問題を別の角度から見てみようと思います。将来の値動きを予測するのではなく、過去のデータの分析に基づいた取引システムの構築を試みます。

Decoder-Free Fully Transformer-based (DFFT)法は、デコーダなしのTransformerのみに基づく効率的なオブジェクト検出器です。Transformerのバックボーンは、オブジェクトの検出に重点を置いています。それを4つのスケールで抽出し、次のシングルレベルエンコーダのみの密度予測モジュールに送ります。予測モジュールはまず、Scale-Aggregated Encoderを使用して、マルチスケール特徴を単一の特徴量マップに集約します。

そして、この手法の著者は、分類と回帰問題の同時特徴量マッチングにTask-Aligned Encoderを使用することを提案しています。

Detection-Oriented Transformer (DOT)バックボーンは、厳密な意味情報を持つマルチスケール特徴量を抽出するために設計されています。1つのEmbeddingモジュールと4つのDOT段階が階層的に積み重ねられています。意味的に強化された新しいAttentionモジュールは、DOTの2つの連続する各段階の低レベルの意味情報を集約します。 

高解像度の特徴量マップを高密度に予測処理する場合、従来の変換ブロックは、Multi-Head Self-Attention (MSA)を局所空間Attentionとウィンドウ型Multi-Head Self-Attention (SW-MSA)の層に置き換えることで計算コストを削減します。しかし、この構造では、限られた低レベルの意味情報を持つマルチスケールオブジェクトしか抽出できないため、検出性能が低下します。

作者: Dmitriy Gizlyk