OpenAI запускає нейронні MMO для навчання ІІ в комплексних середовищах відкритого світу

Протягом останніх кількох років ми бачили, що ряд проектів з штучного інтелекту демонструє, наскільки ефективно штучні інтелектуальні ігри можуть грати в певні ігри, від класиків, таких як шахи до китайської гри Go і навіть DOTA 2 і Starcraft 2. випустила те, що вона називає Neural MMO. Погляд сильно нагадує Minecraft, але довгостроковий вплив ідеї може бути значним.

Ми дійсно торкнулися деяких з цих тем в обговоренні в грі AI і про те, як DirectX 12 може призвести до поліпшень, звільнивши системні ресурси, які будуть витрачені на AI, замість обробки запитів на візуалізацію GPU. (Попередження про спойлер: нічого подібного ще не відбулося). Тим не менш, цю статтю слід розглядати як грунтовну інформацію про те, з якими проблемами часто стикаються розробники, які розробляють системи ІВ.

OpenAI пише:

[T] тут ще дві основні проблеми для навчання мультиагентного підкріплення. Нам потрібно створити відкриті завдання з високою стелями складності: поточні середовища або складні, але занадто вузькі або відкриті, але занадто прості. Такі властивості, як наполегливість і великі масштаби населення, є ключовими, але нам також потрібно більше орієнтирів для кількісного оцінювання прогресу в навчанні за наявності великих масштабів і стійкості населення. Ігровий жанр Massively Multiplayer Online Games (MMOs) імітує велику екосистему із змінною кількістю гравців, що конкурують у стійких та обширних середовищах.

Придатність ММО для моделювання реальних подій активно вивчалася протягом останнього десятиліття. Під час певних ігрових подій у World of Warcraft - інцидент з пошкодженою кров'ю та найповажніші - вторгнення Scourge - гравці спонтанно запровадили свої власні протоколи карантину у відповідь на ігрові проблеми, які інфікували непридатні NPC з трансмісивною хворобою, що дозволило їм заразити інших в межах певного радіусу. Під час Вторгнення Плутанини можна було заразитися хворобою, яка перетворила Вас в одну з нежиті. В обох випадках пізніше в епідеміологічних дослідженнях вивчалися способи реагування гравців на інцидент, і в цілому було важко забезпечити фінансування наукових досліджень, в яких половина міста в реальному часі піддається патогену для вивчення того, як реагує друга половина .

Іншими словами, ММО представляють великий інтерес для дослідників, оскільки вони пропонують обмежену кількість заходів, що вимагають від людей прийняття складних рішень щодо визначення пріоритетів часу та ресурсів, але не містять майже стільки ж конкуруючих претензій або змінних, які слід відстежувати.

У цьому випадку реалізація досить проста. Агенти з ІІ повинні придбати їжу та воду, щоб залишитися в живих, і вони рухаються по карті, щоб отримати обидва. Це призводить до конфлікту з іншими агентами і вимагає від АІ ретельно рухатися, щоб максимізувати шанси знайти ресурси, як це досліджується. Агенти харчуються їжею і повинні наповнювати свої запаси води, змагаючись один з одним з трьома різними атаками.

OpenAI стверджує, що “Однією з цілей платформи є виявлення механіки гри, яка підтримує складну поведінку і популяції агентів, які можуть навчитися використовувати їх. У людських MMO, розробники прагнуть створити збалансовану механіку, в той час як гравці прагнуть максимізувати свою майстерність у використанні їх. Початкові конфігурації наших систем є результатами декількох ітерацій балансування, але жодним чином не є фіксованими: кожен представлений числовий параметр можна редагувати в простому файлі конфігурації.

Один із найсильніших результатів дослідницької групи? Підготовка більшої кількості агентів на карті завжди призводить до більш високих показників, коли сервери «об'єднані», а агенти з кожної з них налаштовані конкурувати один з одним.

Підготовка декількох видів (популяцій) агентів призводила до різних моделей розвідки. Навчання лише одного виду мали тенденцію до глибокого дослідження шляху через карту, в той час як навчання декількох видів призвело до зовсім іншої картини розвідки, оскільки агенти з ІІ намагалися розповсюджуватися на колонізацію різних ніш (у цьому навчальному випадку особи з однієї популяції були не в змозі вирівняти один одного).

Дослідження шляхів і шляхів агентів ІІ займали по всьому світу.

Розрив між роботою «справжніх» дослідників інтелектуальної власності і тим, що ігрові розробники, як правило, об'єднуються, є масовим, але проекти, подібні цьому, натякають на те, щоб одного разу перекрити їх двома. Уявіть, що ви граєте в гру, де персонажі NPC не були просто добре написаними, вони насправді були здатні вчитися і боротися більш ефективно, пристосовуючись до власних методів гри, і працюючи з вами для досягнення цілей місії. Набагато більше схоже на гру з партнером, відсутні всі жарти про маму.

Читати далі

NVIDIA розкриває процесор глибокого навчання Грейс для суперкомп'ютерних додатків

OpenAI запускає нейронні MMO для навчання ІІ в комплексних середовищах відкритого світу

Читати далі

NVIDIA розкриває процесор глибокого навчання Грейс для суперкомп'ютерних додатків

Новий AI записує комп'ютерний код: все ще не Skynet, але це навчання

Google забороняє навчання DeepFake на Colab

Google, щоб зробити Chrome "більш корисним" з новими доповненнями машинного навчання