В нашем предыдущем глубоком погружении в основы ИИ мы говорили о наборах данных, строительных блоках для моделей ИИ. Когда модель ИИ построена, как исследователи измеряют ее эффективность? И как широкая общественность должна интерпретировать эти оценки?

Измерение успеха

Чтобы выйти за рамки инноваций в области искусственного интеллекта, модели должны иметь четкие и убедительные показатели успеха. Основной способ, которым исследователи ИИ измеряют производительность своих моделей, — это процесс, называемый бенчмаркингом. Контрольные показатели — это наборы данных, состоящие из тестов и метрик для измерения производительности ИИ при выполнении конкретных задач, таких как ответы на вопросы, прогнозирование взаимодействия с лекарствами или навигация по объектам. Запустив модель ИИ в сравнении с эталонным тестом, эту модель можно затем ранжировать среди других моделей, которые также были протестированы в соответствии с теми же тестами.

Один из способов, с помощью которого исследователи сравнивают производительность различных моделей в заданном тесте, — это таблицы лидеров. Таблица лидеров — это визуальное отображение или ранжирование производительности моделей по конкретной задаче, сравнивающее точность их выходных данных друг с другом, чтобы было легче определить, какая модель лучше всего достигает поставленной цели.

Таблицы лидеров — это хороший способ показать силу данной модели по сравнению с другими, и они поощряют качественную конкуренцию среди разработчиков моделей, чтобы со временем внедрять инновации в более сильные модели, поскольку исследователи соревнуются за первое место. Они также могут помочь пользователям, ищущим сильные модели ИИ, узнать о тех, которые наиболее эффективны в интересующих их категориях.

Однако, как и проблемы, возникающие при создании наборов данных, таблицы лидеров имеют свой набор рисков и недостатков. Во-первых, в то время как модель может становиться все лучше на конкретном эталонном наборе данных, ее производительность на других подобных наборах данных или в реальном мире может быть нет.

Кроме того, бенчмаркинг производительности модели может быть непоследовательным или неадекватным. Трудно выбрать правильные показатели для измерения успеха, и акцентирование внимания на одних аспектах производительности иногда может происходить за счет других. В исследовании, проведенном исследователями из Института искусственного интеллекта и поддержки принятия решений в Вене, они обнаружили, что более трех четвертей (77,2%) проанализированных наборов данных эталона сообщали только об одном показателе производительности. Часто такой единственной метрикой является точность, которая может как ограничивать, так и вводить в заблуждение.

Точность модели машинного обучения — это измерение, которое показывает, насколько хороша данная модель в определении взаимосвязей и закономерностей между переменными набора данных. Например, для модели детектора кошек, как часто модель правильно предсказывает, есть ли на изображении кошка или нет? По словам Джунго Касаи, исследователя AI2/UW из команды Mosaic, риск сделать акцент на точности или какой-либо одной метрике имеет два основных недостатка.

«Если мы будем слишком полагаться на одну метрику, это может в конечном итоге привести к «взлому метрики», — говорит Юнго. «Например, давайте посмотрим на сравнительный анализ успешности вождения, измерив, сколько миль в среднем проезжает беспилотный автомобиль, прежде чем произойдет авария. Этот показатель можно взломать, 1) просто двигаясь по легкой дороге (в отличие, скажем, от жилых районов, где дети случайным образом переходят улицу) и 2) игнорируя серьезность аварий. Очевидно, что три небольших аварии без погибших намного лучше, чем одна авария с пятью погибшими! В этом примере, если бы мы могли также включить тяжесть несчастных случаев в набор показателей производительности, это имело бы больше смысла и было бы более значимым».

Кроме того, измерение одной метрики может затруднить определение фактической серьезности «пройдено» или «не пройдено» в измерениях. «Например, мы разрабатываем модель машинного перевода для Европейского Союза, — говорит Юнго. «Мы хотим быть особенно осторожными, чтобы правильно переводить имена лидеров. Тем не менее, опечатка в имени человека будет иметь такое же влияние на итоговую оценку метрики, как и опечатка в определяющем слове (например, «апельсин» или «апельсин»)». Этот пример показывает, как качество модели может (буквально) потеряться при переводе.

Итак, как мы можем устранить эти недостатки бенчмарков таблицы лидеров? Предложения о новых ориентирах — это один из способов, но лучший путь вперед — новый подход к спискам лидеров.

Альтернативные измерения

Jungo и команда Mosaic предложили двумерные таблицы лидеров, получившие прозвище Billboards. Для моделей, измеренных по одной метрике успеха, ранжирование в таблице лидеров было успешным, потому что легко сравнить все модели, вносящие свой вклад, используя одну меру. Эти типы моделей обычно используются для простых задач классификации, где результат может быть как правильным, так и неправильным. Но для более сложных задач, таких как модели, созданные для создания историй, захвата изображений, выполнения переводов или ответов на вопросы, списки лидеров часто не подходят. Эти сложные задачи послужили источником вдохновения для Billboards.

Исторически сложилось так, что измерение успеха модели ИИ, выполняющей сложную задачу, выполнялось людьми, но это может быть дорого, трудно воспроизвести, предвзято от комментаторов-людей и, в конечном итоге, трудно масштабировать.

Рекламные щиты применяют ИИ к ИИ, преодолевая разрыв между оценочными исследованиями и исследованиями в области моделирования. Этот новый подход также помогает получать лучшие метрики, даже если эти метрики новее, в то время как традиционные списки лидеров, как правило, отдают предпочтение старым, хорошо зарекомендовавшим себя метрикам, чтобы продемонстрировать, что модель лучше всего работает на тот масштаб. Рекламные щиты могут создавать синергию, объединяя старые и новые показатели в одну таблицу лидеров, обеспечивая более богатое и многогранное представление о производительности лучших в своем классе моделей.

Переосмысление сравнительного анализа

Контрольные показатели — очень полезный инструмент для понимания производительности модели ИИ, и они глубоко интегрированы в исследовательскую среду, поэтому, вероятно, они останутся основным методом измерения в течение некоторого времени. Таким образом, для борьбы с их недостатками есть еще одно решение — переформулировать эталон. Вместо того, чтобы позиционировать тесты и списки лидеров как репрезентативные для лучшей модели, мы должны убедиться, что мы рассматриваем тесты как обзор или измерение одного аспекта производительности — и тестировать модели по более чем одному тесту, где это уместно. В частности, прогон модели через эталонный тест, специально предназначенный для таких вещей, как предвзятость и слепые зоны, может стать отличным способом перекрестного исследования модели и получения более надежной картины производительности.

В будущем, когда вы столкнетесь с информацией, утверждающей, что модель заняла первое место в таблице лидеров, мы рекомендуем вам учитывать:

  1. Какой эталон измеряется?
  2. Сообщается ли информация о потенциальных недостатках этого теста или рассматриваемой модели?
  3. Есть ли альтернативный или дополнительный способ измерения этой модели, который мог бы дать более четкое представление о ее производительности?

В заключительной части нашей серии «Понимание ИИ» мы углубимся в почему ИИ — почему модель дает тот ответ, который она дает?

Узнайте больше об AI2 на allenai.org и обязательно ознакомьтесь с нашими открытыми позициями.

Подпишитесь на @allen_ai в Твиттере и подпишитесь на Информационный бюллетень AI2, чтобы быть в курсе новостей и исследований AI2.