Google DeepMind может поддержать, победить людей в Quake III Arena

Месяцы редко проходят без новостей о искусственном интеллекте, доминирующем над людьми в сложной игре, поэтому неудивительно, что Google DeepMind освоил выигрышные стратегии для Quake III Arena. Но в отличие от прошлых побед AI, последний подход Google к усиленному обучению позволил DeepMind добиться успеха практически без обучения и даже без его основных технических преимуществ.

Даже если вы еще не знали, как играть в Capture the Flag - основную игровую механику в Quake III Arena - вы можете понять правила менее чем за минуту. С другой стороны, развитие стратегического таланта может занять некоторое время. Если вы хотите запрограммировать машину, чтобы играть даже в простую игру, это потребовало бы значительно большего количества инструкций и времени. Последние разработки в области искусственного интеллекта изменили это, потому что мы можем указать параметры искусственных нейронов, а также обратную связь, которую они предоставляют машине при выполнении задачи. Машина знает только действия, которые она может предпринять, независимо от того, провалилась она или нет, и что она должна работать для достижения цели сбоя как можно реже. В этом конкретном случае DeepMind может учиться только на экранных пикселях в контексте этих основных параметров.

Усиленные методы обучения позволяют ИИ часто терпеть неудачи, запоминать свои ошибки и находить шаблоны, которые ведут к успеху. ИИ достаточно легко добиться успеха без множества препятствий и переменных, но в игре, требующей взаимодействия команды (например, Quake III Arena), ИИ должен учитывать поведение врага, а также его союзников. Стратегии победы в командных играх редко включают в себя одного игрока. Ранняя баскетбольная карьера Майкла Джордана наглядно демонстрирует, что звездный игрок, играющий только за себя, не приведет команду к победе. Но ИИ не обременен противоречивыми целями. Приблизительно в 450 000 игр - примерно четырехлетней практике для человека - DeepMind интуитивно разрабатывал успешные командные стратегии без руководства, которое позволяло ему побеждать опытных игроков намного чаще, чем проигрывать.

Google использовал эти обучающие данные для создания агентов DeepMind «За победу» (FTW), которые будут выступать в качестве отдельных членов команды на Quake III Arena. В каждой сыгранной игре Google случайным образом назначал команды из равного числа игроков и агентов FTW. Агентам FTW удалось достичь среднего вероятного «выигрыша» примерно в 1,23 раза больше, чем у сильнейших игроков. При игре со средними людьми этот показатель выигрыша увеличился примерно в 1,5 раза. Конечно, машины имеют ключевое преимущество, когда речь идет о скорости обработки точной и подробной информации из памяти. Тем не менее, даже введение регулярной задержки в 257 миллисекунд привело к тому, что агенты FTW проиграли опытным игрокам примерно в 79% случаев.

Агенты DeepMind FTW обязаны своим успехом нескольким ключевым элементам усиленного процесса обучения. Хотя никаких инструкций не было предоставлено, нейроны были закодированы для ответа на определенные игровые события, такие как захват флага агента или когда товарищ по команде держал флаг, чтобы вычислить контекст для этих событий. Поскольку все обучение происходило визуально, расположение искусственных нейронов было смоделировано после зрительной коры человеческого мозга. Две сети с короткой кратковременной памятью (LTSM), каждая из которых работает в разных временных масштабах, обрабатывают визуальные данные со своими собственными различными целями обучения. Этот параллельный двойной процесс дает каждому агенту FTW преимущество сравнения возможностей, взятых из машинного эквивалента различных точек зрения. Агенты получают свой выбор на основе результатов этого процесса и играют в игру, эмулируя игровой контроллер. Как вы можете видеть на видео выше, быстрые движения предлагают явное преимущество и демонстрируют особый стиль игры, которым могут управлять немногие люди - если таковые вообще имеются.

В играх «один на один» превосходство ИИ может показаться непреодолимым препятствием даже для лучших игроков. В командной среде, однако, ИИ и люди могут фактически работать вместе и конкурировать таким образом, чтобы не жертвовать удовольствием от игры.

VentureBeat поговорил с Тором Грэпелом, ученым DeepMind и профессором информатики в Лондонском глобальном университете, который объяснил преимущества этих усилий:

Наши результаты показывают, что многоагентное обучение с подкреплением может успешно решать сложную игру до такой степени, что игроки-люди даже думают, что компьютерные игроки - лучшие товарищи по команде. Они также предоставляют увлекательный углубленный анализ того, как обученные агенты ведут себя, работают вместе и представляют свою среду. Что делает эти результаты такими захватывающими, так это то, что эти агенты воспринимают свою среду с точки зрения первого лица, так же, как это делает человек. Чтобы научиться играть тактически и сотрудничать со своими товарищами по команде, эти агенты должны полагаться на обратную связь с результатами игры - без какого-либо учителя или тренера, показывающего им, что делать.

Эти усилия дают более оптимистичный взгляд на то, как люди и искусственный интеллект могут сосуществовать в выгодной форме. Хотя это может и не ослабить некоторые из более серьезных проблем, которые вызывает ИИ в ближайшем будущем, эти положительные примеры помогают определить правильные способы использования этой мощной новой технологии.

Читать далее

Удивительный победитель появляется в новых мобильных сетях США

Google DeepMind может поддержать, победить людей в Quake III Arena

Читать далее

Удивительный победитель появляется в новых мобильных сетях США

Это не слишком поздно для Intel, чтобы победить Apple M1

Intel предлагает процессоры победителям ARC GRPU Hunt

Google Lunar X Prize может продлиться без победителей