IBM прагне зменшити потужність, необхідну для тренування нейромережевих мереж, на 100x

IBM прагне зменшити потужність, необхідну для тренування нейромережевих мереж, на 100x

З поштовхом до інтеграції AI практично з усіма, існує ненаситний попит на обчислювальну та електричну потужність, необхідну. Як наслідок, енергоємні графічні процесори, які використовуються сьогодні, починають поступати дорожче, дешевим, менш потужним, спеціальним пристроям, коли йдеться про запуск навчальних нейронних мереж. Тим не менш, трудомісткий процес навчання був повільним, щоб поступитися новим архітектурам. IBM Research, яка добилася того, що TrueNorth - одна з перших користувацьких мікросхем для введення в дію, прагне зробити це знову за допомогою гібридної аналогово-цифрової мікросхемної архітектури, яка також може тренуватися з повністю підключеними глибокими нейронними мережами.

Нейромережі були розв'язані сучасним графічним процесором

Цифрові комп'ютерні процесори майже завжди побудовані на комп'ютерній архітектурі фон Неймана, і були з моменту їх винаходу. Дані та програми завантажуються з певного типу пам'яті в процесор, і результати записуються назад. Ранні версії були обмежені однією операцією за раз, але, звичайно, у нас зараз є багатоядерні процесори, багатопотокові ядра та інші методи для досягнення деякого паралелізму. Навпаки, наші мозги, які були оригінальним натхненням для нейронних мереж, містять мільярди нейронів, які здатні щось робити одночасно. Хоча вони не всі працюють над тим самим завданням, все ще може відбутися приголомшлива кількість паралельних операцій, які відбуваються практично постійно в нашій свідомості.

Це загальне невідповідність в архітектурі є однією з причин того, що нейрові мережі за останні десятиліття стикалися з їх винаходом. Не було достатньо продуктивності, навіть на найшвидших комп'ютерах, щоб зробити їх реальністю. Винахід сучасного GPU змінив це. Наявність сотень або тисяч дуже швидкісних, відносно простих ядер, пов'язаних з швидкою пам'яттю, стало практично тренуватися та управляти типами нейронних мереж, які мають багато шару (називаються глибокими нейронними мережами або DNN) і можуть бути використані для вирішення реальні проблеми.

Користувальницький кремній для вказівки тепер є перевіреною технологією

IBM прагне зменшити потужність, необхідну для тренування нейромережевих мереж, на 100x

IBM TrueNorth, на відміну від нього, побудований для більш безпосереднього моделювання людського мозку, що імітує мільйон нейронів, використовуючи спеціалізовану схему. Це досягає вражаючої економії енергії для упередження, але не підходить для важливих завдань навчання мереж. Тепер дослідники IBM думають, що вони знайшли спосіб збільшити енергозбереження за допомогою використання нейроморфних (мозкових) схем, аналогічних тим, що знайдені в TrueNorth, разом з деякими ідеями, запозиченими з резистивного обчислення, для досягнення значної економії енергії в мережевих тренінгах.

Резистивні обчислення можуть повернутися як ефективна платформа AI

Одна з найбільших вузьких місць традиційних комп'ютерів, коли вони використовуються для роботи нейронних мереж, - це читання та запис даних. Зокрема, кожен вузол (або нейрон) в нейронній мережі повинен зберігати (під час тренування) і витягувати (при навчанні та впорядкуванні) багато ваг. Навіть при швидкій оперативній пам'яті GPU, завантаження їх є вузьким місцем. Отже, дизайнери використали технологію резистивного обчислення, щоб знайти способи збереження ваг прямо в аналоговій схемі, яка реалізує нейрон. Вони використовують той факт, що нейрони не повинні бути дуже точними, тому близькі часто досить добре. Коли ми писали про роботу IBM у цій галузі в 2016 році, це було спрямовано, перш за все, на прискорення вправи. Це було пов'язано з деякими проблемами, властивими спробам його використовувати для навчання. Тепер одна група в IBM вважає, що знайшли рішення для цих питань.

Перехресна архітектура є модульною, а також дозволяє здійснювати як попереду, так і назад
Перехресна архітектура є модульною, а також дозволяє здійснювати як попереду, так і назад

Гібридна архітектура спрямована на зниження потужності AI-тренування на 100x

Команда IBM, написана в журналі Nature, випустила гібридний аналоговий плюс цифровий дизайн, який спрямований на подолання недоліків резистивного обчислення для навчання. Для початківців вони впровадили симульований чип, який використовує перехресну архітектуру, що дозволяє масово паралельно обчислити вихід нейрона на основі суми всіх його зважених вхідних даних. По суті, це апаратна реалізація матричної математики. Кожен невеликий блок перехрестя в чіпі може бути підключений різними способами, тому він може моделювати досить глибокі або широкі мережі до місткості мікросхеми - 209,400 синапсів у поточній версії моделювання команди.

Але це не робить нічого хорошого, якщо всі ці синапси не можуть отримати потрібні їм дані досить швидко. До теперішнього часу пам'ять, що використовується в даному виді експериментального чіпа AI, була або дуже високою швидкістю, але була нестабільною з обмеженою точністю або динамічним діапазоном, або повільною пам'яттю зміни фаз (PCM) з меншою продуктивністю запису. У запропонованій команді проекті використовується модель, аналогічна мозку, для забезпечення кожної з цих потреб: шляхом відокремлення короткого та довгострокового зберігання для кожного нейрона. Дані, необхідні для обчислень, зберігаються в нестійкій, але дуже швидкій, короткочасній аналоговій пам'яті. Це включає в себе всі ваги, необхідні для кожного синапсу кожного нейрона. Під час тренувань ваги періодично вивантажуються в стійкий PCM, який також має більшу потужність. Після цього короткострокові ваги скидаються, тому обмежений діапазон аналогової пам'яті не перевищує.

Концепція досить проста, але реалізації це не так. Фізика пристроїв сильно впливає на аналогові схеми, тому дослідники запропонували періодичне застосування різноманітних напруг та полярності підкачки, щоб звести до мінімуму помилки, які можуть проникати в систему під час тривалої експлуатації.

У моделюванні мікросхема конкурує з програмним забезпеченням на 1 / 100th Power

IBM прагне зменшити потужність, необхідну для тренування нейромережевих мереж, на 100x

Однак, оскільки мікросхема здатна працювати лише з повністю підключеними шарами, як-от ті, що знаходяться на вищих шарах найглибших моделей, існують обмеження щодо того, що він може зробити. Він може запускати MNIST (класичний стандарт розпізнавання цифр), який практично не допомагає, але для завдань розпізнавання зображень, таких як CIFAR, потрібно мати попередньо підготовлену модель для шарів розпізнавання ознак. На щастя, цей тип навчання передачі (за допомогою попередньо підготовленої моделі для шаблонів вилучення об'єктів) став досить поширеним явищем, тому він не повинен бути великим каменем спотикання для нового підходу.

Чи є гібридні чіпи майбутнім для нейронних мереж?

Настільки вражаючими, що і результати цих досліджень, вони мають дуже багато специфічних налаштувань та компромісів. Сама по собі, мені важко бачити щось таке спеціалізоване стати основним. Те, що я думаю, є важливим, і робить це та інші резистивні обчислювальні дослідження, стосовно яких варто писати, полягає в тому, що ми маємо доказ існування кінцевого нейроморфного комп'ютера - мозку - і наскільки він є потужним та ефективним. Тому має сенс продовжувати шукати способи, з яких ми можемо вчитися, і включити ці уроки в наші архітектури обчислень для AI. Не дивуйтеся, коли коли-небудь ваш GPU має гібридні ядра.

[Зображення кредитів: журнал "Природа"]

Читати далі

Samsung, Стенфорд, побудував 10 000 PPI дисплей, який міг би змінити VR, AR
Samsung, Стенфорд, побудував 10 000 PPI дисплей, який міг би змінити VR, AR

Запитайте тих, хто провів у гарнітурі VR більше кількох хвилин, і вони згадають про ефект дверей на екрані. Це може назавжди його усунути.

Хаббл досліджує 16 Psyche, астероїд вартістю 10 000 квадрильйонів доларів
Хаббл досліджує 16 Psyche, астероїд вартістю 10 000 квадрильйонів доларів

Щойно дослідники завершили ультрафіолетове дослідження 16 Psyche, надцінного астероїда, який NASA планує відвідати в 2026 році.

Nvidia представила графічний процесор Ampere A100 80 ГБ із пропускною здатністю 2 ТБ / с
Nvidia представила графічний процесор Ampere A100 80 ГБ із пропускною здатністю 2 ТБ / с

Цього тижня Nvidia анонсувала графічний процесор Ampere A100 об'ємом 80 ГБ для розробників програмного забезпечення для штучного інтелекту, яким дійсно потрібно трохи місця для розгинання ніг.

Asus представляє Chromebox 4 з підтримкою ядерних процесорів 10-го покоління
Asus представляє Chromebox 4 з підтримкою ядерних процесорів 10-го покоління

У наш час комп’ютерів Chromebook настільки багато, що вони могли б рости на деревах. Chromeboxes стає менше, але Asus постійно оновлює свою лінійку і щойно оголосив про останню версію.