Self-Attention

Описанные выше модели используют рекуррентные блоки, обучение которых требует много затрат. В июне 2017 года в статье Attention Is All You Need была предложена новая архитектура нейронной сети — Трансформер — в которой отказались от использования рекуррентных блоков и предложили новый алгоритм внимания Self-Attention. В отличие от описанного выше алгоритм Self-Attention анализирует парные зависимости внутри одной последовательности. На тестах Трансформер показал лучшие результаты, и на сегодняшний день данная модель и ее производные используется во многих моделях, в том числе GPT-2 и GPT-3. Рассмотрим алгоритм Self-Attention подробнее.