Intel рассказывает о своих интеллектуальных картах вывода и обучения N

Hot Chips 31 находится на этой неделе, с презентациями ряда компаний. Intel решила использовать высокотехнологичную конференцию для обсуждения различных продуктов, в том числе основных сессий, посвященных искусственному отделу компании. Искусственный интеллект и машинное обучение рассматриваются в качестве важнейших областей будущего вычислительной техники, и, хотя Intel занялась этими областями с помощью таких функций, как DL Boost в Xeon, она также создает специальные ускорители для рынка.
NNP-I 1000 (Spring Hill) и NNP-T (Spring Crest) предназначены для двух разных рынков: логический вывод и обучение. «Обучение» - это работа по созданию и обучению нейронной сети, как обрабатывать данные в первую очередь. Логический вывод относится к задаче запуска модели обученной нейронной сети. Для обучения нейронной сети требуется гораздо больше вычислительной мощности, чем для применения результатов этого обучения в реальных задачах классификации или классификации.
Spring Crest NNP-T от Intel разработан для беспрецедентного масштабирования с балансом между возможностями тензорной обработки, встроенным HBM, сетевыми возможностями и встроенными SRAM для повышения производительности обработки. Базовый чип построен TSMC - да, TSMC - на 16 нм, с размером кристалла 680 мм2 и вставкой 1200 мм2. Вся сборка состоит из 27 миллиардов транзисторов с 4x8 ГБ стеками памяти HBM2-2400, 24 Tensor Processing Clusters (TPC) с частотой ядра до 1,1 ГГц. Шестьдесят четыре полосы SerDes HSIO обеспечивают общую пропускную способность 3,58 Тбит / с, а карта поддерживает соединение x16 PCIe 4.0. Ожидаемая потребляемая мощность составит 150-250 Вт. Чип был построен с использованием передовой упаковки CoWoS от TSMC (Chip-on-Wafer-on-Substrate) и содержит 60 МБ кэш-памяти, распределенной по различным ядрам. CoWoS конкурирует с EMIB Intel, но Intel решила построить это оборудование на TSMC, а не на собственных литейных заводах. Производительность оценивается до 119 ТОПов.
«Мы не хотим тратить лишнюю площадь на вещи, которые нам не нужны», - сказал вице-президент Intel по аппаратному обеспечению Кэри Клосс (Nexty). «Наш набор инструкций прост; умножение матриц, линейная алгебра, свертки. У нас нет регистров как таковых, все является тензором (2D, 3D или 4D) ». В программном обеспечении определено многое, в том числе возможность программировать то же самое при взломе модели для запуска или выключения матрицы. , «Думайте об этом как об иерархии», - сказал Клосс в интервью. «Вы можете использовать один и тот же набор инструкций для перемещения данных между двумя кластерами в одной группе рядом с одним HBM или между группами или даже умереть в сети. Мы хотим упростить программное обеспечение для управления коммуникацией ».
Слайд-шоу ниже демонстрирует архитектуру NNP-T. Все данные предоставлены Intel, а показатели производительности, указанные в микробенчарах компании, явно не были проверены wfoojjaec.
NNP-T разработан для эффективного масштабирования наружу без использования шасси. Несколько ускорителей NNP-T могут быть соединены вместе в одном шасси, и карты поддерживают шасси к шасси и даже бесклеевое соединение от стойки к стойке без необходимости переключения. На задней панели каждой мезонинной платы есть четыре сетевых порта QFSP (Quad Small Form Factor Pluggable).
У нас пока нет данных о производительности, но это высококлассная учебная карта, с которой Intel выйдет на рынок, чтобы конкурировать с подобными Nvidia. Пока не ясно, как возможные решения, такие как Xe, которые не будут поставляться для центров обработки данных до 2021 года, будут вписываться в будущий портфель продуктов компании, когда на рынке центров обработки данных появятся как тензорные ядра, так и графические процессоры.
Спринг Хилл / NNP-I: Бортовое мороженое
Spring Hill, новый ускоритель логического вывода от Intel, - совершенно другой зверь. В тех случаях, когда NNP-T рассчитан на силовые оболочки 150-250 Вт, NNP-I представляет собой деталь мощностью 10-50 Вт, предназначенную для подключения к слоту M.2. Он имеет два ядра процессора Icelake в паре с 12 вычислительными двигателями логического вывода (ICE).

12 ядер ICE и ядра с двумя ЦП защищены 24 МБ связного L3 и поддерживают инструкции AVX-512 и VNNI. Имеется два встроенных контроллера памяти LPDDR4X, подключенных к встроенному пулу памяти LPDDR4 (пока нет информации о емкости). Пропускная способность DRAM составляет до 68 ГБ / с, но общий объем встроенного DRAM неизвестен. Spring Hill можно добавить к любому современному серверу, который поддерживает слоты M.2 - согласно Intel, устройство взаимодействует через переходник M.2 как продукт PCIe, а не через NVMe.
Цель NNP-I - запускать операции на процессоре AI с меньшими издержками, необходимыми от основного процессора в системе. Устройство подключается через PCIe (поддерживаются как PCIe 3.0, так и 4.0) и обрабатывает рабочую нагрузку AI, используя встроенные ядра Icelake для любой необходимой обработки. Встроенные SRAM и DRAM обеспечивают пропускную способность локальной памяти.

Inference Compute Engine поддерживает различные форматы команд, начиная с FP16 до INT1, с программируемым векторным процессором и 4 МБ SRAM для каждого отдельного ICE.

Есть также тензорный механизм, получивший название Deep Learning Compute Grid, и Tensilica Vision P6 DSP (используется для обработки рабочих нагрузок, которые не настроены для работы в фиксированной DL Compute Grid).

Общая подсистема памяти NNP-I также оптимизирована: кэш-память L3 разбита на восемь сегментов по 3 МБ, которые распределяются между ядрами ICE и CPU. Цель состоит в том, чтобы данные были как можно ближе к тем элементам обработки, которые в них нуждаются. Intel утверждает, что NNP-I может обеспечить производительность ResNet50 3600 выводов в секунду при работе с TDP 10 Вт. Это составляет 4,8 ТОП / ватт, что соответствует общим целям эффективности Intel (компания заявляет, что NNP-I наиболее эффективен при более низкой мощности).
Intel не ожидает, что NNP-I выйдет на розничный рынок, но решения на основе логических выводов делают оживленный бизнес по сравнению с высококлассными решениями для обучения в центрах обработки данных. NNP-I может поставляться широкому кругу клиентов в не слишком отдаленном будущем, в зависимости от общего потребления.
Оба эти решения предназначены для того, чтобы бросить вызов Nvidia в центре обработки данных. Хотя они оба сильно отличаются от Xeon Phi, вы можете утверждать, что они все вместе нацелены на некоторые области, в которые Intel хотела продать Xeon Phi, хотя и весьма разными способами. Однако это не обязательно плохо - когда был построен оригинальный Larrabee, идея использования графических процессоров для искусственного интеллекта и работы центра обработки данных была далекой концепцией. Пересмотр темы с новой специализированной архитектурой как для логического вывода, так и для обучения - это разумный шаг для Intel, если компания сможет отобрать объем у Nvidia.
Читать далее

Раджа Кодури из Intel представит на предстоящей конференции Samsung Foundry
На этой неделе Раджа Кодури из Intel выступит на литейном мероприятии Samsung - и этого не случилось бы, если бы Intel не было, что сказать.

Новые детали Intel Rocket Lake: обратная совместимость, графика Xe, Cypress Cove
Intel опубликовала немного больше информации о Rocket Lake и его 10-нм процессоре, который был перенесен на 14-нм.

Intel представляет новые мобильные графические процессоры Xe Max для создателей контента начального уровня
Intel выпустила новый потребительский мобильный графический процессор, но у него очень специфический вариант использования, по крайней мере, на данный момент.

Обзор Ryzen 9 5950X и 5900X: AMD демонстрирует Zen 3 против последних бастионов производительности Intel
AMD продолжает натиск на то, что когда-то было бесспорным дерн Intel.