OpenAI запускает нейронную MMO для обучения искусственного интеллекта в сложных условиях открытого мира

За последние несколько лет мы видели, как ряд проектов ИИ демонстрируют, насколько эффективно искусственный интеллект может играть в определенные игры, от классики, такой как шахматы, до китайской игры Go и даже DOTA 2 и Starcraft 2. Теперь некоммерческий OpenAI имеет выпустила то, что называется Neural MMO. Внешний вид сильно напоминает Minecraft, но долгосрочное влияние идеи может быть значительным.

На самом деле мы затронули некоторые из этих тем при обсуждении внутриигрового ИИ и о том, как DirectX 12 может привести к улучшениям за счет высвобождения системных ресурсов, расходуемых на ИИ, вместо обработки запросов рендеринга с помощью графического процессора. (Оповещение спойлера: ничего подобного еще не произошло). Тем не менее, эту статью следует рассматривать как учебник по проблемам, с которыми часто сталкиваются разработчики игр при внедрении систем искусственного интеллекта.

OpenAI пишет:

[T] вот еще две основные проблемы для многоагентного обучения с подкреплением. Нам нужно создавать открытые задачи с высоким уровнем сложности: текущие среды являются либо сложными, но слишком узкими или открытыми, но слишком простыми. Такие свойства, как постоянство и большая численность населения, являются ключевыми, но нам также необходимо больше эталонных сред для количественной оценки прогресса в обучении при наличии больших чисел населения и стойкости. Игровой жанр многопользовательских онлайн-игр (MMO) имитирует большую экосистему, состоящую из множества игроков, соревнующихся в постоянных и обширных условиях.

Пригодность ММО для моделирования реальных событий широко исследовалась в течение последнего десятилетия. Во время определенных внутриигровых событий в World of Warcraft - инцидент с Corrupted Blood и вторжение Scourge Inv вторжением - игроки спонтанно вводили свои собственные карантинные протоколы в ответ на игровые проблемы, которые заражали неубиваемых NPC заразной болезнью, которая позволяла им заражать других. в пределах определенного радиуса. Во время Вторжения Плети можно было заразиться болезнью, которая превратила вас в одну из нежити. В обоих случаях способы реагирования игроков на инцидент были позже изучены в эпидемиологических исследованиях, поскольку обычно трудно обеспечить финансирование исследовательской работы, в которой половина города в реальном времени подвергается воздействию патогена для изучения реакции другой половины. ,

Другими словами, НММ представляют большой интерес для исследователей, поскольку они предлагают ограниченный набор видов деятельности, которые требуют от людей принятия сложных решений о том, как расставить приоритеты во времени и ресурсах, но не содержат почти столько конкурирующих требований или переменных, которые необходимо отслеживать.

В этом случае реализация довольно проста. Агенты ИИ должны добывать еду и воду, чтобы остаться в живых, и они перемещаются по карте, чтобы получить и то, и другое. Это приводит их к конфликту с другими агентами и требует от ИИ осторожного движения, чтобы максимизировать вероятность поиска ресурсов при его исследовании. Агенты добывают пищу и должны пополнять запасы воды, соревнуясь друг с другом тремя различными атаками.

OpenAI заявляет, что «одной из целей платформы является обнаружение игровой механики, которая поддерживает сложное поведение и группы агентов, которые могут научиться использовать их. В человеческих ММО разработчики стремятся создать сбалансированную механику, в то время как игроки стремятся максимизировать свои навыки их использования. Первоначальные конфигурации наших систем являются результатом нескольких итераций балансировки, но отнюдь не являются фиксированными: каждый представленный числовой параметр редактируется в простом файле конфигурации ».

Один из самых сильных результатов исследовательской группы? Обучение большего числа агентов на карте всегда приводит к более высокой производительности, когда серверы «объединены» и агенты каждого из них настроены на конкуренцию друг с другом.

Обучение нескольких видов (популяций) агентов привело к различным схемам исследования. Обучение только одного вида имело тенденцию создавать глубокий путь исследования по карте, в то время как обучение нескольких видов приводило к совершенно другой схеме исследования, так как агенты ИИ пытались распространиться, чтобы колонизировать разные ниши (в этом примере обучения объекты из одной популяции были не в состоянии победить друг друга).

Исследовательские маршруты и пути, по которым агенты ИИ шли по всему миру.

Разрыв между работой, которую ведут «настоящие» исследователи ИИ, и тем, что обычно делают игры и разработчики игр, огромен, но подобные проекты намекают на пути к тому, чтобы однажды соединить их. Представьте себе, что вы играете в игру, где персонажи NPC не просто хорошо написаны, они действительно способны учиться и сражаться более эффективно, адаптироваться к вашим собственным методам игры и работать с вами для достижения целей миссии. Это было бы больше похоже на игру в игру с партнером без всяких шуток о твоей маме.

Читать далее

Новый AI пишет компьютерный код: еще не Skynet, но это обучение

Сингулярность сейчас находится в частной бета-версии. Но вам все еще нужно заботиться о синтаксических ошибках.

Лучшая техника для обучения в нашем новом гибридном мире

Надеюсь на «просто» один год повлиял на преподавание, большинство из нас в течение другого сложного года. Онлайн-классы часто заменялись различными формами «перевернутыми» или «гибридными» курсами. Мы возьмем вас через некоторые из наших любимых технологий, чтобы максимально использовать ситуацию.

Google, чтобы сделать Chrome «более полезным» с новыми дополнениями машинного обучения

Google надеется сделать уведомления в хроме менее раздражающих, и он также хочет ожидать поведения пользователя.

Interpol запускает «Metaverse» для обучения офицеров по борьбе с виртуальными преступлениями

В Metaverse официально есть свадьбы, Chipotle, а теперь и полицейские.