Samsung вставляет процессор AI 1,2TFLOP в HBM2 для повышения эффективности и скорости

Samsung вставляет процессор AI 1,2TFLOP в HBM2 для повышения эффективности и скорости

Компания Samsung объявила о выпуске нового варианта Aquabolt. В отличие от обычного скачка тактовой частоты или увеличения емкости, которого вы ожидаете, этот новый HBM-PIM может выполнять вычисления непосредственно на кристалле, которые в противном случае выполнялись бы подключенным процессором, графическим процессором или FPGA.

PIM расшифровывается как «процессор в памяти», и для Samsung это значимое достижение. В настоящее время процессоры сжигают огромное количество энергии, перемещая данные из одного места в другое. Перемещение данных требует времени и затрат энергии. Чем меньше времени ЦП тратит на перемещение данных (или ожидание доставки данных другим чипом), тем больше времени он может потратить на выполнение полезной с точки зрения вычислений работы.

Разработчики ЦП годами работали над этой проблемой, развертывая различные уровни кеширования и интегрируя функции, которые когда-то находились в собственном сокете. Как FPU, так и контроллеры памяти когда-то были установлены на материнской плате, а не напрямую интегрированы в ЦП. Чиплеты на самом деле работают прямо против этой тенденции к агрегации, поэтому AMD пришлось быть осторожным, чтобы ее дизайн Zen 2 и Zen 3 мог повысить общую производительность при разделении кристалла процессора.

Если сближение ЦП и памяти - это хорошо, встраивание обрабатывающих элементов непосредственно в память было бы еще лучше. Исторически это было сложно, потому что логика и DRAM обычно строятся по-разному. Samsung, по-видимому, решил эту проблему и использовал возможности HBM по наложению кристаллов, чтобы поддерживать доступную плотность памяти на достаточно высоком уровне, чтобы заинтересовать клиентов. Samsung заявляет, что может обеспечить более чем двукратное повышение производительности при одновременном снижении энергопотребления на 70 процентов без каких-либо изменений в аппаратном или программном обеспечении. Компания ожидает, что валидация будет завершена к концу первой половины этого года.

Samsung вставляет процессор AI 1,2TFLOP в HBM2 для повышения эффективности и скорости

У THG есть некоторые подробности о новом решении HBM-PIM, почерпнутые из презентации Samsung ISSCC на этой неделе. Новый чип включает программируемый вычислительный блок (PCU) с тактовой частотой всего 300 МГц. Хост управляет PCU с помощью обычных команд памяти и может использовать его для выполнения вычислений FP16 непосредственно в DRAM. Сам HBM может работать как в обычном ОЗУ, так и в режиме FIM (функция в памяти).

Включение PCU снижает общий доступный объем памяти, поэтому FIMDRAM (это еще один термин, который Samsung использует для этого решения) предлагает только 6 ГБ емкости на стек вместо 8 ГБ, которые вы получали бы со стандартным HBM2. Все представленные решения основаны на 20-нм процессе DRAM.

Samsung вставляет процессор AI 1,2TFLOP в HBM2 для повышения эффективности и скорости

В документе Samsung описывается конструкция как «Функциональная память DRAM (FIMDRAM), которая объединяет 16-разрядный механизм обработки множества данных с одной инструкцией в банках памяти и который использует параллелизм на уровне банка для обеспечения пропускной способности обработки в 4 раза выше, чем у внешнего модуля. чип памяти. "

Samsung вставляет процессор AI 1,2TFLOP в HBM2 для повышения эффективности и скорости

Один вопрос, на который не ответила Samsung, - это то, как она справляется с рассеиванием тепла, и это основная причина, почему исторически сложнее было построить логику обработки внутри DRAM. Это может быть вдвойне трудным с HBM, в котором каждый слой накладывается друг на друга. Относительно низкая тактовая частота PIM может быть способом охлаждения DRAM.

Мы не часто видели, чтобы HBM использовался для процессоров, несмотря на Hades Canyon, но несколько высокопроизводительных графических процессоров от Nvidia и AMD использовали HBM / HBM2 в качестве первичной памяти. Неясно, выиграет ли обычный графический процессор от этой возможности разгрузки или как такая функция будет интегрирована в собственные впечатляющие вычислительные возможности графических процессоров. Однако, если Samsung сможет предложить улучшения производительности и мощности, о которых заявляет, ряду клиентов, мы, несомненно, увидим, что этот новый HBM-PIM появится в продуктах через год или два. Увеличение производительности в 2 раза в сочетании с 70-процентным снижением энергопотребления - это своего рода старомодные усовершенствования литографических узлов, которые используются регулярно. Неясно, приживется ли PIM от Samsung, но любое обещание классического улучшения полного узла привлечет внимание, по крайней мере.

Читать далее

New Armv9 Cortex X-2, CPU A710 CPU обеспечивает большую эффективность повышения эффективности
New Armv9 Cortex X-2, CPU A710 CPU обеспечивает большую эффективность повышения эффективности

ARM объявляет новых процессоров сегодня для своей архитектуры ARMV9. Cortex-X2, Cortex-A710 и Cortex-A510 обеспечивают твердый набор улучшений производительности и повышения эффективности.

С Spintronics, Intel видит эффективность, масштабирование плотности далеко за пределами CMOS
С Spintronics, Intel видит эффективность, масштабирование плотности далеко за пределами CMOS

Новый исследовательский документ от Intel предлагает новый путь для масштабирования устройства и снижения энергопотребления. Мы отчаянно нуждаемся в этом.

Google EfficientNet предлагает 10-кратное повышение эффективности анализа изображений
Google EfficientNet предлагает 10-кратное повышение эффективности анализа изображений

Google заслужил репутацию выдающихся новых технологий и обновлений искусственного интеллекта в удивительном темпе, и их объявление EfficientNet служит последним примером. Используя свою работу с AutoML, ученые Google применили метод масштабирования, который позволяет повысить эффективность сети в 10 раз.