DeepMind від Google може підтримати, перемогти людей у ​​Quake III Arena

DeepMind від Google може підтримати, перемогти людей у ​​Quake III Arena

Місяці рідко проходять без новин про штучний інтелект, який домінує люди в складній грі, тому не варто дивуватися, що DeepMind від Google освоїв стратегії виграшу Quake III Arena. Але на відміну від минулих перемог AI, останній підхід Google до посиленого навчання дозволив DeepMind досягти успіху практично без інструкцій і навіть без його ключових технічних переваг.

Навіть якщо ви ще не знаєте, як грати в Capture the Flag - основний механік гри в Quake III Arena, ви можете зрозуміти правила за хвилину. Стратегічний талант, з іншого боку, може зайняти певний час для розвитку. Якщо ви хочете запрограмувати машину, щоб грати навіть просту гру, знадобиться значно більше інструкцій, ніж час. Останні розробки в АІ змінили це, тому що ми можемо вказати параметри штучних нейронів, а також зворотний зв'язок, який вони надають машині при виконанні завдання. Машина знає лише ті дії, які вона може виконати, чи не вдалася вона, і що вона повинна працювати на досягнення мети невдачі якомога рідше. У цьому конкретному випадку DeepMind може вивчати тільки на екрані пікселі в контексті цих основних параметрів.

Посилені методи навчання дозволяють ІІ часто виходити з ладу, запам'ятовувати свої помилки і знаходити моделі, які ведуть до успіху. Досить легко досягти успіху AI без багатьох перешкод і змінних, але в грі, що вимагає командної співпраці (наприклад, Quake III Arena), AI повинен враховувати поведінку ворога, а також своїх союзників. Виграшні стратегії в командних іграх рідко залучають одного гравця. Рання баскетбольна кар'єра Майкла Джордана наочно демонструє, як зірковий гравець, який грає тільки за себе, не приведе команду до перемоги. Проте AI не обтяжується суперечливими цілями. У близько 450 000 іграх - приблизно чотири роки практики для людини - DeepMind інтуїтивно втілювала стратегії командних команд без керівництва, що дозволило йому виграти від досвідчених гравців набагато частіше, ніж втратили.

Google використовував ці дані для підготовки агентів DeepMind "Для перемоги" (FTW), щоб грати як окремі члени команди в Quake III Arena. У кожній грі відтворювалися команди з довільним командам з рівної суміші людських гравців і FTW-агентів. Агенти FTW управляли середньою ймовірною “коефіцієнтом виграшу” приблизно на 1,23x більше, ніж найсильніші людські гравці. Під час гри з середніми гравцями, виграшний показник підскочив до 1,5x. Звичайно, машини мають ключову перевагу, коли йдеться про швидкість обробки точної і детальної інформації з пам'яті. Тим не менш, навіть введення регулярної затримки на 257 мілісекунд тільки призвело до того, що агенти FTW втратили проти досвідчених гравців близько 79% часу.

Кредит зображення: DeepMind
Кредит зображення: DeepMind

Агенти FTW DeepMind зобов'язані своїм успіхом декільком основним елементам посиленого навчального процесу. Хоча не було надано жодної інструкції, нейрони були закодовані для відповіді на конкретні ігрові події, такі як захоплення прапора агента або коли товариш по команді утримував прапор, щоб обчислити контекст для цих подій. Оскільки все навчання відбувалося візуально, розташування штучних нейронів було змодельовано за допомогою зорової кори головного мозку людини. Дві довгі мережі короткочасної пам'яті (LTSM), кожна з яких працює за окремими часовими шкалами, обробляє візуальні дані зі своїми різними цілями навчання. Цей паралельний, подвійний процес надає кожному агенту FTW перевагу порівняння можливостей, взятих з машинно-еквівалентних різних точок зору. Агенти отримують свій вибір на основі результатів цього процесу і грають у гру, імітуючи ігровий контролер. Як ви можете бачити на відео вище, швидкі рухи пропонують чітку перевагу і показують виразний стиль гри, який мало хто може, якщо такі є, керувати.

У іграх один-на-один, перевага ІІ може відчувати себе непереборною контрольно-пропускною пунктом навіть для кращих гравців. Проте в командному середовищі AI і люди можуть реально працювати разом і змагатися таким чином, що не жертвує задоволенням від гри.

VentureBeat виступив з Thore Graepel, вченим DeepMind і професором комп'ютерних наук у Глобальному університеті Лондона, який також пояснює переваги цих зусиль:

Наші результати показують, що навчання мультиагентного підкріплення може успішно вирішувати складну гру до такої міри, що людські гравці навіть думають, що комп'ютерні гравці кращі товариші по команді. Вони також забезпечують захоплюючий поглиблений аналіз того, як ведуть себе навчені агенти, працюють разом і представляють своє середовище. Що робить ці результати настільки захоплюючими, що ці агенти сприймають своє оточення з точки зору від першої особи, так само, як і людина-гравець. Для того, щоб навчитися грати тактично і співпрацювати зі своїми товаришами по команді, ці агенти повинні покладатися на зворотний зв'язок від результатів гри - без будь-якого вчителя або тренера показувати їм, що робити.

Ці зусилля забезпечують більш оптимістичний погляд на те, як люди і штучний інтелект можуть співіснувати у вигідно. Хоча це може не пом'якшити деякі з більш значних проблем, які викликає ІІ щодо найближчого майбутнього, ці позитивні приклади допомагають визначити правильні шляхи використання цієї потужної нової технології.

Читати далі

Найпопулярніший супутник
Найпопулярніший супутник "Зума", запущений SpaceX, може бути втрачений

Нещодавній запуск "Зуми", безсумнівно, випав, але тепер є підстави думати, що американський шпигунський супутник може бути знищений до введення в експлуатацію.

Автомобіль Самозахисту Aptiv в CES 2018 - чи світ краще
Автомобіль Самозахисту Aptiv в CES 2018 - чи світ краще

Бездоганна подорож на півгодини через зайняті вулиці Лас-Вегаса. Єдине людське втручання: при зустрічі з барикадами викидають середину вулиці.

Samsung оголосить Galaxy S9 на Світовому конгресі мобільних телефонів у лютому
Samsung оголосить Galaxy S9 на Світовому конгресі мобільних телефонів у лютому

Попередні чутки вказали на несподівану Galaxy S9, що з'явилася на CES, яка зараз триває. Тим не менш, Samsung знаходиться під рукою не з гарячо очікуваним новим телефоном Galaxy, але з телевізором, розумними домашніми пристроями та побутовими приладами - безліч побутових приладів.

Google Lunar X призу може закінчитися без переможців
Google Lunar X призу може закінчитися без переможців

Фонд готовий виплатити призи на суму до 30 мільйонів доларів, але, як видається, пропозиція може закінчитися через кілька місяців без перемог.