Intel рассказывает о своих интеллектуальных картах вывода и обучения N

Intel рассказывает о своих интеллектуальных картах вывода и обучения N

Hot Chips 31 находится на этой неделе, с презентациями ряда компаний. Intel решила использовать высокотехнологичную конференцию для обсуждения различных продуктов, в том числе основных сессий, посвященных искусственному отделу компании. Искусственный интеллект и машинное обучение рассматриваются в качестве важнейших областей будущего вычислительной техники, и, хотя Intel занялась этими областями с помощью таких функций, как DL Boost в Xeon, она также создает специальные ускорители для рынка.

NNP-I 1000 (Spring Hill) и NNP-T (Spring Crest) предназначены для двух разных рынков: логический вывод и обучение. «Обучение» - это работа по созданию и обучению нейронной сети, как обрабатывать данные в первую очередь. Логический вывод относится к задаче запуска модели обученной нейронной сети. Для обучения нейронной сети требуется гораздо больше вычислительной мощности, чем для применения результатов этого обучения в реальных задачах классификации или классификации.

Spring Crest NNP-T от Intel разработан для беспрецедентного масштабирования с балансом между возможностями тензорной обработки, встроенным HBM, сетевыми возможностями и встроенными SRAM для повышения производительности обработки. Базовый чип построен TSMC - да, TSMC - на 16 нм, с размером кристалла 680 мм2 и вставкой 1200 мм2. Вся сборка состоит из 27 миллиардов транзисторов с 4x8 ГБ стеками памяти HBM2-2400, 24 Tensor Processing Clusters (TPC) с частотой ядра до 1,1 ГГц. Шестьдесят четыре полосы SerDes HSIO обеспечивают общую пропускную способность 3,58 Тбит / с, а карта поддерживает соединение x16 PCIe 4.0. Ожидаемая потребляемая мощность составит 150-250 Вт. Чип был построен с использованием передовой упаковки CoWoS от TSMC (Chip-on-Wafer-on-Substrate) и содержит 60 МБ кэш-памяти, распределенной по различным ядрам. CoWoS конкурирует с EMIB Intel, но Intel решила построить это оборудование на TSMC, а не на собственных литейных заводах. Производительность оценивается до 119 ТОПов.

«Мы не хотим тратить лишнюю площадь на вещи, которые нам не нужны», - сказал вице-президент Intel по аппаратному обеспечению Кэри Клосс (Nexty). «Наш набор инструкций прост; умножение матриц, линейная алгебра, свертки. У нас нет регистров как таковых, все является тензором (2D, 3D или 4D) ». В программном обеспечении определено многое, в том числе возможность программировать то же самое при взломе модели для запуска или выключения матрицы. , «Думайте об этом как об иерархии», - сказал Клосс в интервью. «Вы можете использовать один и тот же набор инструкций для перемещения данных между двумя кластерами в одной группе рядом с одним HBM или между группами или даже умереть в сети. Мы хотим упростить программное обеспечение для управления коммуникацией ».

Слайд-шоу ниже демонстрирует архитектуру NNP-T. Все данные предоставлены Intel, а показатели производительности, указанные в микробенчарах компании, явно не были проверены wfoojjaec.

NNP-T разработан для эффективного масштабирования наружу без использования шасси. Несколько ускорителей NNP-T могут быть соединены вместе в одном шасси, и карты поддерживают шасси к шасси и даже бесклеевое соединение от стойки к стойке без необходимости переключения. На задней панели каждой мезонинной платы есть четыре сетевых порта QFSP (Quad Small Form Factor Pluggable).

У нас пока нет данных о производительности, но это высококлассная учебная карта, с которой Intel выйдет на рынок, чтобы конкурировать с подобными Nvidia. Пока не ясно, как возможные решения, такие как Xe, которые не будут поставляться для центров обработки данных до 2021 года, будут вписываться в будущий портфель продуктов компании, когда на рынке центров обработки данных появятся как тензорные ядра, так и графические процессоры.

Спринг Хилл / NNP-I: Бортовое мороженое

Spring Hill, новый ускоритель логического вывода от Intel, - совершенно другой зверь. В тех случаях, когда NNP-T рассчитан на силовые оболочки 150-250 Вт, NNP-I представляет собой деталь мощностью 10-50 Вт, предназначенную для подключения к слоту M.2. Он имеет два ядра процессора Icelake в паре с 12 вычислительными двигателями логического вывода (ICE).

Intel рассказывает о своих интеллектуальных картах вывода и обучения N

12 ядер ICE и ядра с двумя ЦП защищены 24 МБ связного L3 и поддерживают инструкции AVX-512 и VNNI. Имеется два встроенных контроллера памяти LPDDR4X, подключенных к встроенному пулу памяти LPDDR4 (пока нет информации о емкости). Пропускная способность DRAM составляет до 68 ГБ / с, но общий объем встроенного DRAM неизвестен. Spring Hill можно добавить к любому современному серверу, который поддерживает слоты M.2 - согласно Intel, устройство взаимодействует через переходник M.2 как продукт PCIe, а не через NVMe.

Цель NNP-I - запускать операции на процессоре AI с меньшими издержками, необходимыми от основного процессора в системе. Устройство подключается через PCIe (поддерживаются как PCIe 3.0, так и 4.0) и обрабатывает рабочую нагрузку AI, используя встроенные ядра Icelake для любой необходимой обработки. Встроенные SRAM и DRAM обеспечивают пропускную способность локальной памяти.

Intel рассказывает о своих интеллектуальных картах вывода и обучения N

Inference Compute Engine поддерживает различные форматы команд, начиная с FP16 до INT1, с программируемым векторным процессором и 4 МБ SRAM для каждого отдельного ICE.

Intel рассказывает о своих интеллектуальных картах вывода и обучения N

Есть также тензорный механизм, получивший название Deep Learning Compute Grid, и Tensilica Vision P6 DSP (используется для обработки рабочих нагрузок, которые не настроены для работы в фиксированной DL Compute Grid).

Intel рассказывает о своих интеллектуальных картах вывода и обучения N

Общая подсистема памяти NNP-I также оптимизирована: кэш-память L3 разбита на восемь сегментов по 3 МБ, которые распределяются между ядрами ICE и CPU. Цель состоит в том, чтобы данные были как можно ближе к тем элементам обработки, которые в них нуждаются. Intel утверждает, что NNP-I может обеспечить производительность ResNet50 3600 выводов в секунду при работе с TDP 10 Вт. Это составляет 4,8 ТОП / ватт, что соответствует общим целям эффективности Intel (компания заявляет, что NNP-I наиболее эффективен при более низкой мощности).

Intel не ожидает, что NNP-I выйдет на розничный рынок, но решения на основе логических выводов делают оживленный бизнес по сравнению с высококлассными решениями для обучения в центрах обработки данных. NNP-I может поставляться широкому кругу клиентов в не слишком отдаленном будущем, в зависимости от общего потребления.

Оба эти решения предназначены для того, чтобы бросить вызов Nvidia в центре обработки данных. Хотя они оба сильно отличаются от Xeon Phi, вы можете утверждать, что они все вместе нацелены на некоторые области, в которые Intel хотела продать Xeon Phi, хотя и весьма разными способами. Однако это не обязательно плохо - когда был построен оригинальный Larrabee, идея использования графических процессоров для искусственного интеллекта и работы центра обработки данных была далекой концепцией. Пересмотр темы с новой специализированной архитектурой как для логического вывода, так и для обучения - это разумный шаг для Intel, если компания сможет отобрать объем у Nvidia.

Читать далее

AMD выводит на рынок 8-канальные материнские платы Threadripper Pro
AMD выводит на рынок 8-канальные материнские платы Threadripper Pro

AMD выводит семейство 8-канальных Threadripper Pro на розничный рынок после того, как ранее ограничило их доступ только к OEM-производителям.

Google официально выводит тусовщики на пастбище
Google официально выводит тусовщики на пастбище

После объявления о том, что его популярная платформа чата будет отключена в 2018 году, Google призывает пользователей переключиться на Google Chat. Но теперь у вас нет выбора.

Nvidia выводит RTX на мобильные устройства с новыми графическими процессорами Quadro
Nvidia выводит RTX на мобильные устройства с новыми графическими процессорами Quadro

Независимо от того, требуют ли ваши мобильные вычисления спроса на возможности RTX от Nvidia, или просто выиграют от повышения общей производительности и обновления до архитектуры Turing, у Nvidia появятся новые модели мобильных графических процессоров, которые, как обещает, обеспечат обе возможности.

Полуавтономный робот, выводящий из эксплуатации ядерное оборудование, видит Microsoft Kinect
Полуавтономный робот, выводящий из эксплуатации ядерное оборудование, видит Microsoft Kinect

Существуют различные «уровни» ядерных отходов, но никто не должен обращаться с ними лично. Вот почему роботы с дистанционным управлением стали стандартным инструментом для вывода из эксплуатации ядерных установок и переработки радиоактивных материалов.