Intel детально розповідає про свої інтелектуальні карти Nervana

На цьому тижні триває Hot Chips 31, на якому будуть представлені низки компаній. Intel вирішила використовувати високо технічну конференцію для обговорення різноманітних продуктів, включаючи основні сесії, орієнтовані на підрозділи AI компанії. AI і машинне навчання розглядаються як критичні області для майбутнього обчислень, і, хоча Intel розглядає ці поля з такими функціями, як DL Boost на Xeon, вона також будує спеціальні прискорювачі для ринку.

NNP-I 1000 (Spring Hill) і NNP-T (Spring Crest) призначені для двох різних ринків, для виведення і навчання. «Навчання» - це робота зі створення та навчання нейронної мережі, як в першу чергу обробляти дані. Висновок стосується завдання фактично запустити вже навчену модель нейронної мережі. Для підготовки нейронної мережі потрібно набагато більше обчислювальних кінських сил, ніж для застосування результатів цього тренінгу в реальних завданнях категоризації або класифікації.

Intel Spring Crest NNP-T розроблений для масштабування до безпрецедентного ступеня, з балансом між можливістю тензорної обробки, пакетним HBM, можливістю мережевих зв’язків та SRAM-кодами, що підвищують ефективність, для підвищення продуктивності обробки. Основний чіп побудований TSMC - так, TSMC - на 16 нм, розміром 680 мм2 і штампом 1200 мм2. Уся збірка становить 27 мільярдів транзисторів із стеками 4х8 ГБ пам’яті HBM2-2400, 24 тензорних обробних кластерів (TPC) з базовою частотою до 1,1 ГГц. Шістдесят чотири смуги SerDes HSIO забезпечує сукупну пропускну здатність 3,58 Тбіт / с, а карта підтримує з'єднання x16 PCIe 4.0. Очікується, що споживання електроенергії буде від 150 до 250 Вт. Мікросхема була побудована за допомогою вдосконаленої упаковки CoWoS TSMC (Chip-on-Wafer-on-Substrate) і несе 60 Мб кешу, розподіленого по різних ядрах. CoWoS конкурує з EMIB Intel, але Intel вирішила побудувати це обладнання на TSMC, а не використовувати власні ливарні роботи. Продуктивність оцінюється до 119 TOPS.

"Ми не хочемо витрачати ділянки з відмирання на речі, які нам не потрібні", - заявив на наступній платформі Intel VP Hardware Kloss. "Наш набір інструкцій простий; множення матриці, лінійна алгебра, згортки. У нас відсутні регістри як такі, все є тензором (2D, 3D або 4D). "У програмному забезпеченні визначено багато, в тому числі можливість програмувати те саме при злому моделі, щоб запустити або вимкнути die . "Подумайте про це як про ієрархію", - сказав Клосс в інтерв'ю. "Ви можете використовувати один і той же набір інструкцій для переміщення даних між двома кластерами в одній групі поруч з одним HBM або між групами або навіть вмирати в мережі. Ми хочемо спростити програмне забезпечення для управління комунікацією. "

Показ слайдів нижче кроків по архітектурі NNP-T. Всі дані люб’язно надані Intel, а показники продуктивності, що ділиться в мікроспенерах компанії, очевидно, не були підтверджені wfoojjaec.

NNP-T призначений для ефективного масштабування назовні, не вимагаючи шасі. Кілька прискорювачів NNP-T можуть бути з'єднані між собою в одній шасі, а картки підтримують підключення шасі до шасі і навіть безлайн-з'єднання між стійками і стійками без необхідності перемикача. На задній панелі кожної антресолі є чотири порти мережі QFSP (Quad Small Form Factor Pluggable).

У нас поки що немає даних про продуктивність, але це тренувальна карта високого класу, з якою Intel вийде на ринок, щоб конкурувати з подібними Nvidia. Поки не ясно, наскільки можливі рішення, такі як Xe, який не постачається для центрів обробки даних до 2021 року, впишуться у майбутній продуктовий асортимент, коли на ринку даних центрів обробки даних будуть представлені як ядра тензорної обробки, так і графічні процесори.

Spring Hill / NNP-I: бордюр Icelake

Спрінг Хілл, новий прискорювач виводу Intel, є зовсім іншим звіром. Там, де NNP-T розрахований на конверт потужністю 150-250 Вт, NNP-I є частиною 10-50 Вт, призначеною для підключення до гнізда M.2. Він має два ядра процесора Icelake в парі з 12 Inference Compute Engine (ICE).

12 двигунів ICE та подвійні ядра процесора підкріплені 24 Мб когерентного L3 та підтримують як AVX-512, так і VNNI інструкції. Є два вбудованих контролера пам’яті LPDDR4X, підключених до пулу вмираючої пам’яті LPDDR4 (ще немає слова про ємність). Пропускна здатність DRAM становить до 68 Гб / с, але загальна кількість DRAM на карті невідома. Spring Hill можна додати до будь-якого сучасного сервера, який підтримує слоти M.2 - за даними Intel, пристрій спілкується через стояк M.2 як продукт PCIe, а не через NVMe.

Мета NNP-I полягає в запуску операцій на процесорі AI з меншими накладними витратами, необхідними для основного процесора в системі. Пристрій підключається через PCIe (підтримуються і PCIe 3.0, і 4.0) і обробляє навантаження AI, використовуючи вбудовані ядра Icelake для будь-якої необхідної обробки. Вбудовані SRAM та DRAM забезпечують пропускну здатність локальної пам'яті.

Inference Compute Engine підтримує різні формати інструкцій, починаючи від FP16 до INT1, з програмованим векторним процесором та 4 МБ SRAM для кожного окремого ICE.

Є також тензорний двигун, який отримав назву обчислювальної сітки глибокого навчання та DSP Tensilica Vision P6 (використовується для обробки робочих навантажень, які не налаштовані для роботи в обчислювальній сітці DL з фіксованою функцією).

Загальна підсистема пам'яті NNP-I також оптимізована, кеш L3 розбитий на вісім фрагментів 3 МБ, поділених між ядрами ICE та CPU. Мета - тримати дані максимально наближеними до елементів обробки, які потребують цього. Intel стверджує, що NNP-I може забезпечити продуктивність ResNet50 з 3600 висновків в секунду під час роботи на 10 Вт TDP. Це досягає 4,8 TOPS / ват, що відповідає загальним цілям ефективності Intel (компанія стверджує, що NNP-I є найбільш ефективним при менших потужностях).

Intel не сподівається, що NNP-I вийде на ринок роздрібної торгівлі, однак рішення висновків роблять бурхливий бізнес у порівнянні з навчальними рішеннями, орієнтованими на висококласні дані в центрі обробки даних. NNP-I може доставити широке коло замовників у не надто віддаленому майбутньому, залежно від загального обсягу використання.

Обидва ці рішення призначені для виклику Nvidia в центрі обробки даних. Хоча вони обоє досить відрізняються від Xeon Phi, ви можете стверджувати, що вони колективно націлені на деякі простори, якими Intel хотіла продати Xeon Phi, хоча і дуже різними способами. Однак це не обов'язково погано - коли спочатку була створена Larrabee, ідея використання графічних процесорів для роботи AI та центрів обробки даних була віддаленою концепцією. Перегляд теми з новою спеціалізованою архітектурою як для виведення, так і для навчання - розумний крок для Intel, якщо компанія може захопити обсяг від Nvidia.

Читати далі

Nervana Nevermore: Intel Зрушення Фокус на Habana Labs, Скасовує ННП-T, НПН

$ 2B покупки Intel по Habana Labs роду-на увазі це йде: компанія повертаючись від Nervana і вибирають для архітектури Гауді Habana Labs 'замість цього.