Архитектура GPT

В июне 2018 года OpenAI представила миру модель нейронной сети GPT, которая сразу показала лучшие результаты по целому ряду языковых тестов. В феврале 2019 года появилась GPT-2, а в мае 2020 года все узнали о GPT-3. Данные модели продемонстрировали возможность генерации нейронной сетью связанного текста. Также проводились эксперименты по генерации музыки и изображений. Основным же недостатком моделей можно назвать требования к вычислительным ресурсам. Для обучения первой GPT потребовался месяц на машине с 8 GPU. Этот недостаток отчасти компенсируется возможностью использования предварительно обученных моделей для решения новых задач. Но размеры модели требуют ресурсов для ее функционирования.

Концептуально модели GPT построены на базе уже рассмотренного нами трансформера. Основная идея заключается в предварительном обучении модели без учителя на большом объеме данных с последующей тонкой настройкой на относительно небольшом количестве размеченных данных.

Причиной двухэтапного обучения является размер модели. Современные модели глубокого машинного обучения, подобные GPT, насчитывают большое количество параметров, число которых уже исчисляется сотнями миллионов. Следовательно, обучение подобных нейронных сетей требует огромной обучающей выборки. При использовании обучения с учителем создание размеченной обучающей выборки потребует значительных трудозатрат. В то же время в сети сейчас есть много оцифрованных и не размеченных текстов, которые отлично подходят для обучения модели без учителя. Однако результаты обучения без учителя по статистике уступают обучению с учителем. Поэтому после обучения без учителя осуществляется тонкая настройка модели на сравнительно небольшой выборке размеченных данных.

Обучение без учителя позволяет GPT изучить языковую модель, а тонкая настройка на размеченных данных настраивает модель для выполнения конкретных задач. Таким образом, одна предварительно обученная модель может быть тиражирована и настроена на выполнения различных языковых задач. Ограничением выступает язык исходной выборки для обучения без учителя.

Как показала практика, подобный подход дает неплохие результаты в широком спектре языковых задач. К примеру, модель GPT-3 способна генерировать связанные тексты на заданную тему. Но тут следует отметить, что указанная модель содержит 175 млрд параметров и предварительно обучена на наборе данных в 570 ГБ.

Несмотря на то, что модели GPT были разработаны для обработки естественного языка, они также показали достойные результаты и в задачах генерации музыки и изображений.

Теоретически можно использовать модели GPT с любыми последовательностями оцифрованных данных. Вопрос в достаточности данных и ресурсов для предварительного обучения без учителя.

Сравнительное тестирование моделей с использованием механизмов внимания

Описание архитектуры и принципов реализации