Практическая ценность игрового ИИ

Что мы получаем, автоматизируя времяпрепровождение?

Это плохая идея - интуитивно догадываться, насколько интеллектуальной должна быть или способна быть машина, основываясь исключительно на одной задаче. Машины для игры в шашки 1950-х годов поразили исследователей, и многие считали это огромным скачком к рассуждению на человеческом уровне, но теперь мы понимаем, что достижение человеческих или сверхчеловеческих качеств в этой игре намного проще, чем достижение общего интеллекта человеческого уровня. Фактически, даже лучшие люди могут быть легко побеждены поисковым алгоритмом с простой эвристикой. Человеческие или сверхчеловеческие способности при выполнении одной задачи не обязательно являются ступенькой к достижению почти человеческих результатов при выполнении большинства задач.

- Люк Хьюитт

Что такого особенного в настольных играх и видеоиграх, что так привлекает исследователей искусственного интеллекта? Все началось с алгоритмов игры в шашки в 1950-х годах, когда исследователи были поражены мышлением алгоритмов игры в шашки. За этим последовали шахматы, которые стали центром исследований искусственного интеллекта вплоть до 2000-х годов. Перенесемся в 2015 год: вирусное видео нейронной сети, играющей в Super Mario увеличило массовый интерес к искусственному интеллекту видеоигр и вышло за пределы ниши разработчиков видеоигр и превратилось в мейнстримную шутку в области науки о данных.

Буквально на этой неделе Facebook внес свой вклад в постоянный список покерных алгоритмов искусственного интеллекта.

Когда на сцену вышла DeepMind, все стало еще интереснее. После того, как в 2014 году компания была приобретена Google, СМИ все больше привлекали внимание к компании и ее приложениям для искусственного интеллекта. Сначала был знаменитый алгоритм AlphaGo, который в 2016 году обыграл чемпионов мира в древней настольной игре Go (есть еще документальный фильм на Netflix). Затем AlphaZero возродил интерес к исследованиям шахматных алгоритмов, используя подход глубокого обучения в сочетании с методами Монте-Карло вместо алгоритма отсечения альфа-бета, который использовался IBM в 1990-х, а также Stockfish в 2000-х.

Затем DeepMind переключил свое внимание с настольных игр на видеоигры, такие как StarCraft II и Defense of the Ancients 2 (DOTA 2). В этот момент стало очевидно, что имеет место закономерность.

DeepMind тратит очень много ресурсов и времени на автоматизацию рекреационной деятельности, и история говорит нам, что это редко приводит к практической ценности в реальном мире. Если бы это было так, здравый смысл утверждал бы, что заядлые геймеры будут пользоваться большим спросом из-за их стратегического мастерства. Если алгоритм ценен, потому что он побеждает в StarCraft, не должен ли человек-геймер быть столь же ценным для стратегических функций в корпорациях и в армии?

Я не уверен, что идеи AlphaZero можно легко обобщить. Игры - вещь очень необычная . - Педро Домингос

Я знаю, что думают некоторые из вас, читатели. Игрок - это человек, и если алгоритм может играть в игру так же хорошо (или лучше, чем) человек, то он воспроизводит человеческий интеллект. Это ошибочный способ мышления , потому что вполне вероятно, что алгоритм может решить 24653546734 + 5345434534 быстрее, чем вы, но это не значит, что он воспроизвел или превзошел человеческий интеллект. Просто потому, что алгоритм был оптимизация для выполнения одной задачи (например, для игры в StarCraft) не означает, что ее можно оптимизировать для выполнения любой задачи. Без явных эвристик и жесткого кодирования алгоритмы не работают, если выходить за рамки одной узко определенной задачи.

Еще одно противоположное мнение заключается в том, что цель состоит не в том, чтобы решить игру максимально эффективно, а в том, чтобы заставить ее «научиться» решать ее без явных указаний и эвристики. Я понимаю цель здесь, но я думаю, что она ограничена тем фактом, что его обучают только тому, как выполнять одну задачу и делать это методом грубой силы (подробнее об этом позже).

Похоже, что в DeepMind основное внимание уделяется играм. Если вы посмотрите на общедоступный список их проектов, подавляющее большинство из них связаны с играми. Это почему? И какой смысл запускать массивные вычисления и геймплей, рассчитанный на тысячи лет… только для того, чтобы победить заядлого геймера, который может освоить игру за считанные недели и с гораздо меньшим объемом данных?

Более того, эвристика может создать достойный ИИ и сделать это гораздо дешевле. Мы все знаем, что цель состоит в том, чтобы заставить машину «научиться» выполнять задачу без явного программирования для нее, но разве не иронично, что мы тренируем, тренируем и тренируем просто для того, чтобы она выучила одну задачу раньше даже выполнение, что приводит к медленной и неэффективной реализации? Между тем, старая школа эвристики сделает это немедленно и эффективно, пропустив обучающую часть.

В большинстве реальных стратегических взаимодействий используется скрытая информация. Я чувствую, что это игнорируется большинством сообщества ИИ . - Ноам Браун, исследователь искусственного интеллекта в Facebook

Трудно игнорировать эту зацикленность на играх с исследованиями искусственного интеллекта, и я думаю, что необходимо выяснить, почему. Есть три основных преимущества игр в исследованиях искусственного интеллекта, о которых мы расскажем:

  1. Игры - это полностью замкнутая проблема, в которой известны все возможные события, переменные и исходы.
  2. Данные могут генерироваться в играх посредством случайного игрового процесса.
  3. Игры могут иметь детерминированные результаты благодаря предсказуемой и контролируемой среде.

Когда игры фиксируют реальные проблемы

Я должен быть справедливым. DeepMind проделала заметную работу по сворачиванию белков с помощью AlphaFold и недавно получила признание за свой вклад. Были и другие проекты, нашедшие применение в отрасли. Итак, DeepMind заменил геймеров более чем дорогостоящим.

Я также добавлю, что когда вы выйдете за рамки глубокого обучения и рассмотрите другие алгоритмы ИИ, определенно есть некоторые совпадения решений между играми и практическими проблемами. Это особенно верно, когда вы смотрите на исследование операций. Например, использование алгоритма поиска по дереву / линейного программирования для решения судоку также может быть сформулировано для решения проблем физических ограничений, таких как планирование. Об этом я рассказываю в отдельной статье Судоку и расписания, а также расскажу в видео ниже:

Тот же самый подход к поиску по дереву может быть адаптирован в алгоритм отсечения альфа-бета для победы в шахматах и ​​других состязательных пошаговых играх. Фактически это был алгоритм, который использовался в алгоритме IBM Deep Blue в 1990-х, а также в Stockfish в 2000-х.

Вы можете создавать игровые симуляции Монте-Карло и также называть это «ИИ». Для тех из вас, кто не знаком, алгоритмы Монте-Карло используют случайность для достижения цели. Например, если вы возьмете несколько простых случайных распределений, описывающих, сколько времени требуется для обработки клиента (нормальное распределение), а также как часто клиент входит (распределение Пуассона), вы можете создать моделирование очереди клиентов, подобное приведенному ниже:

Так что есть места, где настольные игры и видеоигры пересекаются с практическими проблемами реального мира. И конечно, вы можете использовать нейронные сети, чтобы попытаться решить все эти проблемы, но с практической точки зрения зачем вам это нужно, когда существующие алгоритмы будут работать намного лучше и с гораздо меньшими затратами?

В какой-то момент кажется, что мы создаем ИИ против игр ради них, и это нормально, и это прерогатива исследований. Однако вызывает недоумение, когда создатели этих алгоритмов утверждают, что у этих алгоритмов есть неиспользованный потенциал для решения реальных проблем в экстраординарном масштабе AGI, при этом оставаясь застрявшим в цикле поиска следующей игры для автоматизации, а не решения промышленных задач. .

Когда игры не захватывают реальный мир

Еще в 1990-х годах много внимания уделялось IBM Deep Blue, алгоритму игры в шахматы, который использовал альфа-бета-обрезку (разновидность поиска по дереву). К сожалению, этот шахматный алгоритм так и не нашел существенного применения в реальном мире, несмотря на шумиху и антропоморфизацию со стороны игроков и средств массовой информации. На самом деле отсечение альфа-бета было не чем иным, как хорошо спроектированным поисковым алгоритмом, который годился только для шахмат и других пошаговых игр.

Сегодня AlphaZero попала в заголовки газет в конце 2018 года, и ее реакция была удивительно идентична реакции Deep Blue в 1996 году. Была одна примечательная статья, на которую я ссылался ниже:



AlphaZero от DeepMind теперь демонстрирует человеческую интуицию в историческом« поворотном моменте для ИИ.
Программа искусственного интеллекта DeepMind AlphaZero теперь демонстрирует признаки человеческой интуиции и творчества в ... news.yahoo.com »



Внимательно обратите внимание на выбор слов в этой статье, которые антропоморфизируют алгоритм такими словами, как «человекоподобный», «творческий подход» и «интуиция». Можем ли мы быть здесь настоящими? Это просто лучший шахматный алгоритм, использующий подобранные рандомизированные данные вместо поиска по дереву, и используются гуманизирующие слова, чтобы алгоритм походил на человека, а не на калькулятор.

Мне показалось довольно странным, что эта статья замалчивает массивную генерацию данных методом Монте-Карло, используемую для обучения, когда алгоритм играет против себя бесчисленное количество случайных игр, а затем на этих данных выполняется регрессия для оценки оптимального хода на данном ходу. . Однако в статье традиционные алгоритмы, такие как Stockfish, маргинализируются из-за того, что они «подсчитывают миллионы возможных результатов во время игры» и являются дорогостоящими в вычислительном отношении. Разве это не горшок, который называет чайник черным? И Stockfish, и AlphaZero требуют тяжелых вычислений и генерируют большое количество результатов, и можно утверждать, что AlphaZero требует гораздо большего.

Признаюсь, методы вычислений и этапы их обучения разные. Но я думаю, что эта статья крайне вводит в заблуждение, критикуя существующие алгоритмы за то, что они требуют больших вычислений, в то время как AlphaZero также делал это. AlphaZero, как и все проекты DeepMind, связанные с игровым искусственным интеллектом, генерировала данные, играя в случайные игры с самим собой, что редко возможно в реальном мире. Вот почему так много специалистов по данным винят модели глубокого обучения в том, что нет работает над нехваткой данных. Когда вам приходится полагаться на огромное количество подобных данных, можно привести аргумент, мы должны сосредоточиться на использовании меньшего количества данных, а не большего.

И для чего мы это делаем? Чтобы создать лучший шахматный алгоритм с огромными накладными расходами на генерацию данных / обучение? Это нормально, это действительно достижение для шахматных исследований и знаний. Но давайте не будем обманывать себя и говорить, что SkyNet теперь возможен при условии, что у нас есть сборщик, который предоставит нам неограниченное количество размеченных данных для тренировок.

AlphaZero, как и все проекты DeepMind, связанные с игровым искусственным интеллектом, генерировала данные, играя с самим собой в случайные игры, чего нельзя сделать в реальном мире.

Почему игровой искусственный интеллект терпит неудачу в реальном мире

Здравый смысл может указать на три причины, по которым игровой ИИ пытается найти применение в реальном мире:

  1. Игры - это полностью замкнутая проблема, в которой известны все возможные события, переменные и исходы. В реальном мире неопределенность и неизвестность присутствуют повсюду, а двусмысленность является нормой.
  2. Данные могут быть сгенерированы в играх посредством рандомизированного игрового процесса, но это невозможно для большинства реальных проблем. Вы можете генерировать данные с помощью моделирования (как в примере с очередью клиентов выше), но данные хороши ровно настолько, насколько хорошо моделирование, которое, вероятно, уже имеет прогностическую ценность.
  3. Игры могут иметь детерминированные результаты и иметь всю необходимую информацию (кроме того, что противник будет делать дальше), тогда как проблемы реального мира могут быть в высшей степени недетерминированными и иметь ограниченную частичную информацию.

Именно по этим причинам такие игры, как Go, Chess, StarCraft и DOTA 2, легко создать для ИИ, но их сложно использовать в реальном мире. Кроме того, в играх есть место для ошибок и неудачных ходов, которые легко могут остаться незамеченными. В реальных приложениях гораздо меньше терпимости к ошибкам, если приложение не является некритичным, например, размещение рекламы или публикаций в социальных сетях. И опять же, реальный мир часто предпочитает эвристику, а не экспериментальное глубокое обучение, которое изо всех сил пытается быть практичным с точки зрения логистики.

Важно не стать жертвой ошибки композиции, когда мы быстро делаем обобщения из-за небольшого успеха и ошибочно предписываем решение более серьезной проблемы. Подход, ориентированный на данные, сталкивается с ограничениями, и возможно, нам следует найти модели ИИ, которые используют меньше данных, а не требуют больше данных. Джозеф Сирош, корпоративный вице-президент по искусственному интеллекту и исследованиям в Microsoft, описывает это лучше всего:

«Если вы находитесь в среде, где доступно неограниченное количество данных для изучения, вы можете добиться в этом невероятных успехов, и есть много-много способов добиться в этом успеха. Умный подход к искусственному интеллекту приходит тогда, когда у вас ограниченные данные. Такие люди, как вы и я, на самом деле учимся с очень ограниченными данными, мы изучаем новые навыки с помощью одноразового руководства. Это действительно то, к чему должен прийти ИИ. Вот в чем проблема. Мы работаем над созданием настоящего ИИ ».

С другой стороны, действительно стоит рассмотреть проблему P и NP. Я удивлен, что современная литература по ИИ, кажется, избегает этой темы, потому что это действительно ключ к подлинному открытию эффективного ИИ. Я очень рекомендую посмотреть это видео, оно того стоит.

Хотя это не было ни доказано, ни опровергнуто, все больше ученых приходят к выводу, что P не равно NP. Это крайне неудобно для исследований ИИ, потому что это означает, что сложность всегда будет ограничивать наши возможности. Иногда я задаюсь вопросом, являются ли все эти управляемые данными сегодняшние модели ИИ неудачной попыткой отойти от эвристики и попытаться обойти проблему P и NP. Ирония заключается в том, что процесс оптимизации потерь в машинном обучении все еще находится в пространстве проблем P и NP, и это одна из основных причин того, почему машинное обучение так сложно.

Несмотря на все эти ограничения, если DeepMind по-прежнему настаивает на продвижении глубокого обучения, они могут по крайней мере начать применять его в других областях. Мне бы хотелось, чтобы DeepMind решила проблему коммивояжера и другие промышленные проблемы с помощью глубокого обучения (как сделано в этой статье), вместо того, чтобы оставаться в сфере видеоигр и проблем безопасности. Исследования ИИ в играх - это круто и поучительно, но было бы неплохо увидеть, как какое-то разнообразие смешивает забавные проблемы с реальными трудными проблемами, с которыми отрасли сталкиваются каждый день. Должно быть больше таких вещей, как сворачивание белков, и меньше видеоигр.

С другой стороны, вполне вероятно, что реальные проблемы не так привлекательны. Можете ли вы использовать задачу коммивояжера в качестве рекламного трюка? Или круче, если алгоритм выиграет состязательную схватку с чемпионом мира по [поместите игру здесь]? Я гарантирую вам, что последний, скорее всего, попадет в заголовки газет и привлечет финансирование венчурного капитала.

Дополнительная информация: