Google DeepMind может поддержать, победить людей в Quake III Arena

Google DeepMind может поддержать, победить людей в Quake III Arena

Месяцы редко проходят без новостей о искусственном интеллекте, доминирующем над людьми в сложной игре, поэтому неудивительно, что Google DeepMind освоил выигрышные стратегии для Quake III Arena. Но в отличие от прошлых побед AI, последний подход Google к усиленному обучению позволил DeepMind добиться успеха практически без обучения и даже без его основных технических преимуществ.

Даже если вы еще не знали, как играть в Capture the Flag - основную игровую механику в Quake III Arena - вы можете понять правила менее чем за минуту. С другой стороны, развитие стратегического таланта может занять некоторое время. Если вы хотите запрограммировать машину, чтобы играть даже в простую игру, это потребовало бы значительно большего количества инструкций и времени. Последние разработки в области искусственного интеллекта изменили это, потому что мы можем указать параметры искусственных нейронов, а также обратную связь, которую они предоставляют машине при выполнении задачи. Машина знает только действия, которые она может предпринять, независимо от того, провалилась она или нет, и что она должна работать для достижения цели сбоя как можно реже. В этом конкретном случае DeepMind может учиться только на экранных пикселях в контексте этих основных параметров.

Усиленные методы обучения позволяют ИИ часто терпеть неудачи, запоминать свои ошибки и находить шаблоны, которые ведут к успеху. ИИ достаточно легко добиться успеха без множества препятствий и переменных, но в игре, требующей взаимодействия команды (например, Quake III Arena), ИИ должен учитывать поведение врага, а также его союзников. Стратегии победы в командных играх редко включают в себя одного игрока. Ранняя баскетбольная карьера Майкла Джордана наглядно демонстрирует, что звездный игрок, играющий только за себя, не приведет команду к победе. Но ИИ не обременен противоречивыми целями. Приблизительно в 450 000 игр - примерно четырехлетней практике для человека - DeepMind интуитивно разрабатывал успешные командные стратегии без руководства, которое позволяло ему побеждать опытных игроков намного чаще, чем проигрывать.

Google использовал эти обучающие данные для создания агентов DeepMind «За победу» (FTW), которые будут выступать в качестве отдельных членов команды на Quake III Arena. В каждой сыгранной игре Google случайным образом назначал команды из равного числа игроков и агентов FTW. Агентам FTW удалось достичь среднего вероятного «выигрыша» примерно в 1,23 раза больше, чем у сильнейших игроков. При игре со средними людьми этот показатель выигрыша увеличился примерно в 1,5 раза. Конечно, машины имеют ключевое преимущество, когда речь идет о скорости обработки точной и подробной информации из памяти. Тем не менее, даже введение регулярной задержки в 257 миллисекунд привело к тому, что агенты FTW проиграли опытным игрокам примерно в 79% случаев.

Изображение предоставлено DeepMind
Изображение предоставлено DeepMind

Агенты DeepMind FTW обязаны своим успехом нескольким ключевым элементам усиленного процесса обучения. Хотя никаких инструкций не было предоставлено, нейроны были закодированы для ответа на определенные игровые события, такие как захват флага агента или когда товарищ по команде держал флаг, чтобы вычислить контекст для этих событий. Поскольку все обучение происходило визуально, расположение искусственных нейронов было смоделировано после зрительной коры человеческого мозга. Две сети с короткой кратковременной памятью (LTSM), каждая из которых работает в разных временных масштабах, обрабатывают визуальные данные со своими собственными различными целями обучения. Этот параллельный двойной процесс дает каждому агенту FTW преимущество сравнения возможностей, взятых из машинного эквивалента различных точек зрения. Агенты получают свой выбор на основе результатов этого процесса и играют в игру, эмулируя игровой контроллер. Как вы можете видеть на видео выше, быстрые движения предлагают явное преимущество и демонстрируют особый стиль игры, которым могут управлять немногие люди - если таковые вообще имеются.

В играх «один на один» превосходство ИИ может показаться непреодолимым препятствием даже для лучших игроков. В командной среде, однако, ИИ и люди могут фактически работать вместе и конкурировать таким образом, чтобы не жертвовать удовольствием от игры.

VentureBeat поговорил с Тором Грэпелом, ученым DeepMind и профессором информатики в Лондонском глобальном университете, который объяснил преимущества этих усилий:

Наши результаты показывают, что многоагентное обучение с подкреплением может успешно решать сложную игру до такой степени, что игроки-люди даже думают, что компьютерные игроки - лучшие товарищи по команде. Они также предоставляют увлекательный углубленный анализ того, как обученные агенты ведут себя, работают вместе и представляют свою среду. Что делает эти результаты такими захватывающими, так это то, что эти агенты воспринимают свою среду с точки зрения первого лица, так же, как это делает человек. Чтобы научиться играть тактически и сотрудничать со своими товарищами по команде, эти агенты должны полагаться на обратную связь с результатами игры - без какого-либо учителя или тренера, показывающего им, что делать.

Эти усилия дают более оптимистичный взгляд на то, как люди и искусственный интеллект могут сосуществовать в выгодной форме. Хотя это может и не ослабить некоторые из более серьезных проблем, которые вызывает ИИ в ближайшем будущем, эти положительные примеры помогают определить правильные способы использования этой мощной новой технологии.

Читать далее

Новый процессор Qualcomm Snapdragon 888 будет работать на флагманских телефонах Android в 2021 году
Новый процессор Qualcomm Snapdragon 888 будет работать на флагманских телефонах Android в 2021 году

888 оснащен новым процессором, интегрированным 5G и мощным графическим процессором. Это станет самым значительным обновлением флагманской системы на кристалле (SoC) Qualcomm за последние годы.

Quake II RTX теперь работает на графических процессорах AMD благодаря Vulkan Ray Tracing
Quake II RTX теперь работает на графических процессорах AMD благодаря Vulkan Ray Tracing

Quake II RTX от Nvidia теперь работает на графических процессорах AMD с использованием Vulkan, если у вас есть правильный драйвер (и RX 6000).

Разработчик Star Citizen представляет новую дорожную карту и отменяет бета-версию Squadron 42
Разработчик Star Citizen представляет новую дорожную карту и отменяет бета-версию Squadron 42

Cloud Imperium Games отменила бета-версию Squadron 42, которая должна была дебютировать до конца 2020 года, без текущего плана или сроков ее запуска.

Qualcomm приобретает Nuvia и возвращается к разработке собственных процессоров
Qualcomm приобретает Nuvia и возвращается к разработке собственных процессоров

Qualcomm купит Nuvia за 1,4 миллиарда долларов. Разработчик процессора ARM работал над серверным чипом, чтобы бросить вызов x86, но мы пока не знаем, продолжит ли Qualcomm эти планы.