Новый метод контекстной калибровки повышает точность GPT-3 до 30%

Сегодняшние большие языковые модели значительно улучшили свою независимую от задач производительность, требующую нескольких операций, при этом топовые модели, такие как GPT-3, могут конкурировать с современными подходами к тонкой настройке, если они представлены лишь несколькими примерами в подсказке на естественном языке. Этот подход к обучению, состоящему из нескольких кадров, «в контексте» набирает обороты в значительной степени благодаря его способности обучаться без обновления параметров. По сравнению с традиционными методами точной настройки, обучение за несколько шагов позволяет практикам быстрее создавать прототипы моделей НЛП, позволяет нетехническим пользователям создавать системы НЛП и эффективно повторно использовать модели для уменьшения системной памяти и сложности.

Однако точность GPT-3 может быть очень нестабильной для разных подсказок (обучающих примеров, перестановки, формата). Чтобы решить эту проблему, новое исследование Калифорнийского университета в Беркли, Мэриленде и Калифорнийского университета в Ирвине направлено на выявление подводных камней, которые могут вызвать нестабильность в языковой модели GPT-3, и предлагает процедуру контекстной калибровки, которая последовательно улучшает GPT-3 (и GPT-2). ) точность при выборе различных форматов подсказок и примеров.

Как правило, подсказка на естественном языке подается в нейронные авторегрессионные языковые модели, чтобы гарантировать, что они выполняют обучение за несколько шагов с использованием обучения в контексте. Подсказка состоит из трех компонентов: формата, набора обучающих примеров и перестановки обучающих примеров.

Сначала исследователи изучили, как точность GPT-3 изменяется при разных запросах. Они провели эксперименты с задачами анализа настроений на трех размерах моделей GPT-3 (параметры 2.7B, 13B и 175B), обученных на наборах данных SST-2, и наблюдали высокую дисперсию точности GPT-3 в примерах обучения подсказок, перестановке примеров, а также формат. Удивительно, но изменение перестановки обучающих примеров может привести к тому, что точность будет варьироваться от 54,3 процента до почти современной (93,4 процента).

Затем исследователи проанализировали факторы, которые способствуют нестабильности GPT-3, выявив три предубеждения, лежащие в основе дисперсии точности:

Смещение ярлыка большинства GPT-3 склоняется к ответам, которые часто встречаются в подсказке. Смещение ярлыков большинства помогает объяснить, почему различные варианты обучающих примеров сильно влияют на точность GPT-3, поскольку это меняет распределение прогнозов модели.
Смещение по давности. Смещение ярлыка большинства модели усугубляется его смещением новизны: тенденцией повторять ответы, которые появляются ближе к концу подсказки. В целом систематическая ошибка новизны помогает объяснить, почему так важна перестановка обучающих примеров.
Предвзятость в отношении общих токенов GPT-3 смещен в сторону вывода токенов, которые являются общими для его распределения до обучения. Предвзятость общих лексем помогает объяснить, почему так важен выбор названий меток и почему модель не справляется с редкими ответами.

Команда утверждает, что вместе эти три предубеждения способствуют простому сдвигу в распределении результатов модели.

Вдохновленные идеей, что предвзятость модели в отношении определенных ответов может быть оценена путем ввода данных без содержания, исследователи предложили новую процедуру контекстной калибровки без данных для определения параметров. Чтобы оценить эффективность контекстной калибровки, они провели эксперименты по классификации текста, поиску фактов и задачам извлечения информации из различных наборов данных (AGNews, директор MIT, DBPedia, TREC и т. Д.).

Предлагаемый метод контекстной калибровки повышает точность и снижает дисперсию моделей GPT-3, повышая среднюю и абсолютную точность наихудшего случая до 30 процентов. Исследование подчеркивает необходимость лучшего понимания и анализа динамики обучения в контексте.

Статья Калибровка перед использованием: повышение быстродействия языковых моделей находится на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен

Мы знаем, что вы не хотите пропустить какие-либо новости или научные открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.

смотрите также:

Новые материалы

Ускоренный курс по жадным алгоритмам

Дай мне, дай мне, дай мне Аудитория Эта статья предназначена для инженеров, достаточно хорошо разбирающихся в программировании, структурах данных и алгоритмах. Он в основном основан на..

Изучайте Java (Урок 2: Комментарии)

Как и зачем использовать комментарии в java с примерами Введение: Комментарии — это строки текста в программе Java, которые игнорируются компилятором и используются для добавления..

Async Await в Swift: легкое управление параллелизмом

Введение в запуск асинхронного кода Асинхронный код выполняет несколько операций одновременно. Параллелизм необходим при выполнении тяжелых вычислений или сетевых запросов. Однако это может..

Очистить файлы Program .cache в Ubuntu 20.10

Очистите кеш за несколько простых шагов! GNU / Linux реализовал эффективное управление хранилищем для своих пользователей. Но заметили ли вы, что в вашей системе Linux заканчивается место,..

Использование Node.js для чтения действительно больших файлов (часть 1)

В этом сообщении в блоге есть интересный источник вдохновения. На прошлой неделе кто-то на одном из моих каналов в Slack опубликовал тестовое задание, которое он получил на должность..

Введение в градиентный спуск и обратное распространение

Введение в градиентный спуск и обратное распространение Как машинное обучение? Машинное обучение ( ML ) - это исследование компьютерных алгоритмов, которые автоматически улучшаются по..

Шаблон CQRS — C#

Этот архитектурный шаблон в основном говорит о том, что мы можем использовать одну модель для операций чтения, а другую — для операций записи. Звучит хорошо, но реализовать его может быть..

Machine Learning JavaScript Data Science Artificial Intelligence Python Software Development Coding Web Development Deep Learning AI React Software Engineering Nodejs Typescript Java Front End Development Development Data CSS NLP Productivity Computer Science Algorithms ChatGPT Tech HTML Tutorial Neural Networks Reactjs API Javascript Tips Programming Languages Mathematics Angular AWS Javascript Development Developer Computer Vision