Jetson Xavier Nvdiya Stuffs Volta Performance у крихітному форм-факторі

Цього тижня компанія Nvidia представила свою нову платформу Jetson Xavier, нову обчислювальну дошку з значно вищою продуктивністю, ніж попередні моделі Team Green. До цих пір компанія запропонувала Jetson TK1 (2014), TX1 (2015) і Jetson TX2 (2017) як обчислювальні пристрої краю для робочих навантажень AI. K1 був побудований навколо Kepler, X1 використовував Maxwell, X2 заснований на Паскалі, і Xavier, як можна було б очікувати, на базі Volta.

Нова плата містила 512 ядер GPU (TX1 і TX2 були 256-ядерними рішеннями) з 8-ядерним процесором ARM з невизначеною винтою. Компанія Nvidia не з'ясувала, чи це подальша еволюція та вдосконалення ядра центрального процесора Denver, або якщо компанія використовує дизайн стандарту ARM Cortex, призначену для болотної системи. Nvidia згадує ARM8.2, що цікаво, тому що власний блог ARM стверджує, що 8.2 включає підтримку "розширеної моделі пам'яті, обробки даних із напівтоптичною плаваючою точкою та вводить як RAS (підтримка доступності надійності), так і статистичні дані про розширення профілів (SPE) . "Масштабовані векторні розширення (SVE) також підтримуються в цьому зміненому наборі інструкцій.

Інші оновлення від TX2 до Jetson Xavier включають вдвічі оперативну пам'ять (від 8 Гб до 16 Гб), більш ніж удвічі більшу пропускну здатність (від 59,7 ГБ / с до 137 Гбіт / с) і пару нових спеціальних прискорювачів навчання для Nvidia. NVDLA описується як рішення для обробки вихідних даних для різних типів завантаження машинного навчання на сайті NVDLA.org Nvidia (доступно тут). Точний текст говорить:

Обладнання NVDLA складається з наступних компонентів:
Convolution Core - оптимізований високопродуктивний двигун згортання. Процесор єдиного обробки даних - одноточечний пошуковий движок для функцій активації. Плановий процесор даних - планарний усереднений двигун для об'єднання даних. Процесор обробки даних - багатоканальний движок усереднення для додаткових функцій нормалізації. Спеціальна пам'ять та Data Reshape Engines - прискорення перетворення пам'яті на пам'ять для перетворення та копіювання операцій тензора.

У тій же доповіді зазначається, що конфігурації є модульними і призначаються для коригування залежно від потреб замовника, тому незрозуміло, який саме рішення Nvidia відправляє з Xavier (документація компанії проходить через два приклади - "маленький" та "великий" "Модель Nvidia NVDLA).

Nvidia зазначає, що їх плата Xavier може розтягуватися, щоб відповідати різноманітним моделям використання в TDPs від 10W до 30W, з твердженнями, що платформа може потрапити на 10 TFLOPS FP16 та 20 TOPS з використанням INT8. Продуктивність FP32 становить 5 TFLOPS. Плата є значним кроком вперед для загального продуктивності AI і ML у Nvidia у цьому форм-факторі, і поставляється на п'ятах оголошень, таких як HGX-2 - набагато більша конфігурація сервера "великого заліза", призначеного для лабораторій із значно більшою готівкою для падіння і більше влади горіти. HGX-2 може намалювати 10 кіловат, що, як відзначає Next Platform, є трохи драйвером для такого навантаження та можливостей. На 30 Вт, Jetson Xavier призначений для більш скромних застосувань та платформ, де він все ж додає набагато більшу продуктивність, ніж його попередник.