Сегодняшние большие языковые модели значительно улучшили свою независимую от задач производительность, требующую нескольких операций, при этом топовые модели, такие как GPT-3, могут конкурировать с современными подходами к тонкой настройке, если они представлены лишь несколькими примерами в подсказке на естественном языке. Этот подход к обучению, состоящему из нескольких кадров, «в контексте» набирает обороты в значительной степени благодаря его способности обучаться без обновления параметров. По сравнению с традиционными методами точной настройки, обучение за несколько шагов позволяет практикам быстрее создавать прототипы моделей НЛП, позволяет нетехническим пользователям создавать системы НЛП и эффективно повторно использовать модели для уменьшения системной памяти и сложности.

Однако точность GPT-3 может быть очень нестабильной для разных подсказок (обучающих примеров, перестановки, формата). Чтобы решить эту проблему, новое исследование Калифорнийского университета в Беркли, Мэриленде и Калифорнийского университета в Ирвине направлено на выявление подводных камней, которые могут вызвать нестабильность в языковой модели GPT-3, и предлагает процедуру контекстной калибровки, которая последовательно улучшает GPT-3 (и GPT-2). ) точность при выборе различных форматов подсказок и примеров.

Как правило, подсказка на естественном языке подается в нейронные авторегрессионные языковые модели, чтобы гарантировать, что они выполняют обучение за несколько шагов с использованием обучения в контексте. Подсказка состоит из трех компонентов: формата, набора обучающих примеров и перестановки обучающих примеров.

Сначала исследователи изучили, как точность GPT-3 изменяется при разных запросах. Они провели эксперименты с задачами анализа настроений на трех размерах моделей GPT-3 (параметры 2.7B, 13B и 175B), обученных на наборах данных SST-2, и наблюдали высокую дисперсию точности GPT-3 в примерах обучения подсказок, перестановке примеров, а также формат. Удивительно, но изменение перестановки обучающих примеров может привести к тому, что точность будет варьироваться от 54,3 процента до почти современной (93,4 процента).

Затем исследователи проанализировали факторы, которые способствуют нестабильности GPT-3, выявив три предубеждения, лежащие в основе дисперсии точности:

  • Смещение ярлыка большинства GPT-3 склоняется к ответам, которые часто встречаются в подсказке. Смещение ярлыков большинства помогает объяснить, почему различные варианты обучающих примеров сильно влияют на точность GPT-3, поскольку это меняет распределение прогнозов модели.
  • Смещение по давности. Смещение ярлыка большинства модели усугубляется его смещением новизны: тенденцией повторять ответы, которые появляются ближе к концу подсказки. В целом систематическая ошибка новизны помогает объяснить, почему так важна перестановка обучающих примеров.
  • Предвзятость в отношении общих токенов GPT-3 смещен в сторону вывода токенов, которые являются общими для его распределения до обучения. Предвзятость общих лексем помогает объяснить, почему так важен выбор названий меток и почему модель не справляется с редкими ответами.

Команда утверждает, что вместе эти три предубеждения способствуют простому сдвигу в распределении результатов модели.

Вдохновленные идеей, что предвзятость модели в отношении определенных ответов может быть оценена путем ввода данных без содержания, исследователи предложили новую процедуру контекстной калибровки без данных для определения параметров. Чтобы оценить эффективность контекстной калибровки, они провели эксперименты по классификации текста, поиску фактов и задачам извлечения информации из различных наборов данных (AGNews, директор MIT, DBPedia, TREC и т. Д.).

Предлагаемый метод контекстной калибровки повышает точность и снижает дисперсию моделей GPT-3, повышая среднюю и абсолютную точность наихудшего случая до 30 процентов. Исследование подчеркивает необходимость лучшего понимания и анализа динамики обучения в контексте.

Статья Калибровка перед использованием: повышение быстродействия языковых моделей находится на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен

Мы знаем, что вы не хотите пропустить какие-либо новости или научные открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.