Intel рассказывает о своих интеллектуальных картах вывода и обучения N

Intel рассказывает о своих интеллектуальных картах вывода и обучения N

Hot Chips 31 находится на этой неделе, с презентациями ряда компаний. Intel решила использовать высокотехнологичную конференцию для обсуждения различных продуктов, в том числе основных сессий, посвященных искусственному отделу компании. Искусственный интеллект и машинное обучение рассматриваются в качестве важнейших областей будущего вычислительной техники, и, хотя Intel занялась этими областями с помощью таких функций, как DL Boost в Xeon, она также создает специальные ускорители для рынка.

NNP-I 1000 (Spring Hill) и NNP-T (Spring Crest) предназначены для двух разных рынков: логический вывод и обучение. «Обучение» - это работа по созданию и обучению нейронной сети, как обрабатывать данные в первую очередь. Логический вывод относится к задаче запуска модели обученной нейронной сети. Для обучения нейронной сети требуется гораздо больше вычислительной мощности, чем для применения результатов этого обучения в реальных задачах классификации или классификации.

Spring Crest NNP-T от Intel разработан для беспрецедентного масштабирования с балансом между возможностями тензорной обработки, встроенным HBM, сетевыми возможностями и встроенными SRAM для повышения производительности обработки. Базовый чип построен TSMC - да, TSMC - на 16 нм, с размером кристалла 680 мм2 и вставкой 1200 мм2. Вся сборка состоит из 27 миллиардов транзисторов с 4x8 ГБ стеками памяти HBM2-2400, 24 Tensor Processing Clusters (TPC) с частотой ядра до 1,1 ГГц. Шестьдесят четыре полосы SerDes HSIO обеспечивают общую пропускную способность 3,58 Тбит / с, а карта поддерживает соединение x16 PCIe 4.0. Ожидаемая потребляемая мощность составит 150-250 Вт. Чип был построен с использованием передовой упаковки CoWoS от TSMC (Chip-on-Wafer-on-Substrate) и содержит 60 МБ кэш-памяти, распределенной по различным ядрам. CoWoS конкурирует с EMIB Intel, но Intel решила построить это оборудование на TSMC, а не на собственных литейных заводах. Производительность оценивается до 119 ТОПов.

«Мы не хотим тратить лишнюю площадь на вещи, которые нам не нужны», - сказал вице-президент Intel по аппаратному обеспечению Кэри Клосс (Nexty). «Наш набор инструкций прост; умножение матриц, линейная алгебра, свертки. У нас нет регистров как таковых, все является тензором (2D, 3D или 4D) ». В программном обеспечении определено многое, в том числе возможность программировать то же самое при взломе модели для запуска или выключения матрицы. , «Думайте об этом как об иерархии», - сказал Клосс в интервью. «Вы можете использовать один и тот же набор инструкций для перемещения данных между двумя кластерами в одной группе рядом с одним HBM или между группами или даже умереть в сети. Мы хотим упростить программное обеспечение для управления коммуникацией ».

Слайд-шоу ниже демонстрирует архитектуру NNP-T. Все данные предоставлены Intel, а показатели производительности, указанные в микробенчарах компании, явно не были проверены wfoojjaec.

NNP-T разработан для эффективного масштабирования наружу без использования шасси. Несколько ускорителей NNP-T могут быть соединены вместе в одном шасси, и карты поддерживают шасси к шасси и даже бесклеевое соединение от стойки к стойке без необходимости переключения. На задней панели каждой мезонинной платы есть четыре сетевых порта QFSP (Quad Small Form Factor Pluggable).

У нас пока нет данных о производительности, но это высококлассная учебная карта, с которой Intel выйдет на рынок, чтобы конкурировать с подобными Nvidia. Пока не ясно, как возможные решения, такие как Xe, которые не будут поставляться для центров обработки данных до 2021 года, будут вписываться в будущий портфель продуктов компании, когда на рынке центров обработки данных появятся как тензорные ядра, так и графические процессоры.

Спринг Хилл / NNP-I: Бортовое мороженое

Spring Hill, новый ускоритель логического вывода от Intel, - совершенно другой зверь. В тех случаях, когда NNP-T рассчитан на силовые оболочки 150-250 Вт, NNP-I представляет собой деталь мощностью 10-50 Вт, предназначенную для подключения к слоту M.2. Он имеет два ядра процессора Icelake в паре с 12 вычислительными двигателями логического вывода (ICE).

Intel рассказывает о своих интеллектуальных картах вывода и обучения N

12 ядер ICE и ядра с двумя ЦП защищены 24 МБ связного L3 и поддерживают инструкции AVX-512 и VNNI. Имеется два встроенных контроллера памяти LPDDR4X, подключенных к встроенному пулу памяти LPDDR4 (пока нет информации о емкости). Пропускная способность DRAM составляет до 68 ГБ / с, но общий объем встроенного DRAM неизвестен. Spring Hill можно добавить к любому современному серверу, который поддерживает слоты M.2 - согласно Intel, устройство взаимодействует через переходник M.2 как продукт PCIe, а не через NVMe.

Цель NNP-I - запускать операции на процессоре AI с меньшими издержками, необходимыми от основного процессора в системе. Устройство подключается через PCIe (поддерживаются как PCIe 3.0, так и 4.0) и обрабатывает рабочую нагрузку AI, используя встроенные ядра Icelake для любой необходимой обработки. Встроенные SRAM и DRAM обеспечивают пропускную способность локальной памяти.

Intel рассказывает о своих интеллектуальных картах вывода и обучения N

Inference Compute Engine поддерживает различные форматы команд, начиная с FP16 до INT1, с программируемым векторным процессором и 4 МБ SRAM для каждого отдельного ICE.

Intel рассказывает о своих интеллектуальных картах вывода и обучения N

Есть также тензорный механизм, получивший название Deep Learning Compute Grid, и Tensilica Vision P6 DSP (используется для обработки рабочих нагрузок, которые не настроены для работы в фиксированной DL Compute Grid).

Intel рассказывает о своих интеллектуальных картах вывода и обучения N

Общая подсистема памяти NNP-I также оптимизирована: кэш-память L3 разбита на восемь сегментов по 3 МБ, которые распределяются между ядрами ICE и CPU. Цель состоит в том, чтобы данные были как можно ближе к тем элементам обработки, которые в них нуждаются. Intel утверждает, что NNP-I может обеспечить производительность ResNet50 3600 выводов в секунду при работе с TDP 10 Вт. Это составляет 4,8 ТОП / ватт, что соответствует общим целям эффективности Intel (компания заявляет, что NNP-I наиболее эффективен при более низкой мощности).

Intel не ожидает, что NNP-I выйдет на розничный рынок, но решения на основе логических выводов делают оживленный бизнес по сравнению с высококлассными решениями для обучения в центрах обработки данных. NNP-I может поставляться широкому кругу клиентов в не слишком отдаленном будущем, в зависимости от общего потребления.

Оба эти решения предназначены для того, чтобы бросить вызов Nvidia в центре обработки данных. Хотя они оба сильно отличаются от Xeon Phi, вы можете утверждать, что они все вместе нацелены на некоторые области, в которые Intel хотела продать Xeon Phi, хотя и весьма разными способами. Однако это не обязательно плохо - когда был построен оригинальный Larrabee, идея использования графических процессоров для искусственного интеллекта и работы центра обработки данных была далекой концепцией. Пересмотр темы с новой специализированной архитектурой как для логического вывода, так и для обучения - это разумный шаг для Intel, если компания сможет отобрать объем у Nvidia.

Читать далее

AMD может разрешить кастомные карты RX 6900 XT, стартовые запасы могут быть ограничены
AMD может разрешить кастомные карты RX 6900 XT, стартовые запасы могут быть ограничены

Ходят слухи, что Nvidia может быть не единственной компанией, столкнувшейся с нехваткой продукции в этот праздничный сезон. В целом, высокопроизводительные графические процессоры может быть очень сложно найти.

Утечка тестов рисует противоречивую картину ракетного озера Intel
Утечка тестов рисует противоречивую картину ракетного озера Intel

Слухи о Rocket Lake в последнее время указывают на два противоположных направления, но более конкурентоспособные цифры, скорее всего, будут правдой.

IBM и Fujifilm установили новый рекорд поверхностной плотности с ленточным картриджем емкостью 580 ТБ
IBM и Fujifilm установили новый рекорд поверхностной плотности с ленточным картриджем емкостью 580 ТБ

IBM и Fujifilm объявили о прорыве, который однажды может предоставить ленточные картриджи емкостью 580 ТБ и более.

Разработчик Star Citizen представляет новую дорожную карту и отменяет бета-версию Squadron 42
Разработчик Star Citizen представляет новую дорожную карту и отменяет бета-версию Squadron 42

Cloud Imperium Games отменила бета-версию Squadron 42, которая должна была дебютировать до конца 2020 года, без текущего плана или сроков ее запуска.