DeepMind від Google може підтримати, перемогти людей у Quake III Arena
Місяці рідко проходять без новин про штучний інтелект, який домінує люди в складній грі, тому не варто дивуватися, що DeepMind від Google освоїв стратегії виграшу Quake III Arena. Але на відміну від минулих перемог AI, останній підхід Google до посиленого навчання дозволив DeepMind досягти успіху практично без інструкцій і навіть без його ключових технічних переваг.
Навіть якщо ви ще не знаєте, як грати в Capture the Flag - основний механік гри в Quake III Arena, ви можете зрозуміти правила за хвилину. Стратегічний талант, з іншого боку, може зайняти певний час для розвитку. Якщо ви хочете запрограмувати машину, щоб грати навіть просту гру, знадобиться значно більше інструкцій, ніж час. Останні розробки в АІ змінили це, тому що ми можемо вказати параметри штучних нейронів, а також зворотний зв'язок, який вони надають машині при виконанні завдання. Машина знає лише ті дії, які вона може виконати, чи не вдалася вона, і що вона повинна працювати на досягнення мети невдачі якомога рідше. У цьому конкретному випадку DeepMind може вивчати тільки на екрані пікселі в контексті цих основних параметрів.
Посилені методи навчання дозволяють ІІ часто виходити з ладу, запам'ятовувати свої помилки і знаходити моделі, які ведуть до успіху. Досить легко досягти успіху AI без багатьох перешкод і змінних, але в грі, що вимагає командної співпраці (наприклад, Quake III Arena), AI повинен враховувати поведінку ворога, а також своїх союзників. Виграшні стратегії в командних іграх рідко залучають одного гравця. Рання баскетбольна кар'єра Майкла Джордана наочно демонструє, як зірковий гравець, який грає тільки за себе, не приведе команду до перемоги. Проте AI не обтяжується суперечливими цілями. У близько 450 000 іграх - приблизно чотири роки практики для людини - DeepMind інтуїтивно втілювала стратегії командних команд без керівництва, що дозволило йому виграти від досвідчених гравців набагато частіше, ніж втратили.
Google використовував ці дані для підготовки агентів DeepMind "Для перемоги" (FTW), щоб грати як окремі члени команди в Quake III Arena. У кожній грі відтворювалися команди з довільним командам з рівної суміші людських гравців і FTW-агентів. Агенти FTW управляли середньою ймовірною “коефіцієнтом виграшу” приблизно на 1,23x більше, ніж найсильніші людські гравці. Під час гри з середніми гравцями, виграшний показник підскочив до 1,5x. Звичайно, машини мають ключову перевагу, коли йдеться про швидкість обробки точної і детальної інформації з пам'яті. Тим не менш, навіть введення регулярної затримки на 257 мілісекунд тільки призвело до того, що агенти FTW втратили проти досвідчених гравців близько 79% часу.
Агенти FTW DeepMind зобов'язані своїм успіхом декільком основним елементам посиленого навчального процесу. Хоча не було надано жодної інструкції, нейрони були закодовані для відповіді на конкретні ігрові події, такі як захоплення прапора агента або коли товариш по команді утримував прапор, щоб обчислити контекст для цих подій. Оскільки все навчання відбувалося візуально, розташування штучних нейронів було змодельовано за допомогою зорової кори головного мозку людини. Дві довгі мережі короткочасної пам'яті (LTSM), кожна з яких працює за окремими часовими шкалами, обробляє візуальні дані зі своїми різними цілями навчання. Цей паралельний, подвійний процес надає кожному агенту FTW перевагу порівняння можливостей, взятих з машинно-еквівалентних різних точок зору. Агенти отримують свій вибір на основі результатів цього процесу і грають у гру, імітуючи ігровий контролер. Як ви можете бачити на відео вище, швидкі рухи пропонують чітку перевагу і показують виразний стиль гри, який мало хто може, якщо такі є, керувати.
У іграх один-на-один, перевага ІІ може відчувати себе непереборною контрольно-пропускною пунктом навіть для кращих гравців. Проте в командному середовищі AI і люди можуть реально працювати разом і змагатися таким чином, що не жертвує задоволенням від гри.
VentureBeat виступив з Thore Graepel, вченим DeepMind і професором комп'ютерних наук у Глобальному університеті Лондона, який також пояснює переваги цих зусиль:
Наші результати показують, що навчання мультиагентного підкріплення може успішно вирішувати складну гру до такої міри, що людські гравці навіть думають, що комп'ютерні гравці кращі товариші по команді. Вони також забезпечують захоплюючий поглиблений аналіз того, як ведуть себе навчені агенти, працюють разом і представляють своє середовище. Що робить ці результати настільки захоплюючими, що ці агенти сприймають своє оточення з точки зору від першої особи, так само, як і людина-гравець. Для того, щоб навчитися грати тактично і співпрацювати зі своїми товаришами по команді, ці агенти повинні покладатися на зворотний зв'язок від результатів гри - без будь-якого вчителя або тренера показувати їм, що робити.
Ці зусилля забезпечують більш оптимістичний погляд на те, як люди і штучний інтелект можуть співіснувати у вигідно. Хоча це може не пом'якшити деякі з більш значних проблем, які викликає ІІ щодо найближчого майбутнього, ці позитивні приклади допомагають визначити правильні шляхи використання цієї потужної нової технології.
Читати далі
SpaceX запускає встановлення рекордів 143 супутників у першій місії Rideshare
У неділю (24 січня) SpaceX запустив місію Transporter-1 із неймовірними 143 супутниками. Однак святкують не всі.
Капітальний ремонт гімну BioWare Axes дозволить продовжувати гру в поточному стані
Зрештою, BioWare не буде проводити капітальний ремонт Гімну. Гра буде надалі доступна у поточному стані, але майбутні оновлення скасовуються. Також не йдеться про відновлення роботи DLC.
EA дозволить BioWare витягнути непотрібний багатокористувацький Dragon Age 4
EA дозволить розробникам не доставляти багатокористувацьку програму в Dragon Age 4 після того, як Гімн випаде танк та Джедаї: Павший Орден. Які вони з них.
Alienware ноутбуків випускає свій перший AMD з 2007 року
Alienware оголосила новий ноутбук, що працює за допомогою родини Ryzen Mobile 5000 AMD, а Dell додав нову систему AMD для власної матриці продуктів.