Nvidia's Jetson Xavier Stuffs Volta Performance в крошечном форм-факторе

Nvidia's Jetson Xavier Stuffs Volta Performance в крошечном форм-факторе

На этой неделе Nvidia представила новую платформу Jetson Xavier, новую вычислительную плату со значительно более высокой производительностью, чем предыдущие модели от Team Green. До сих пор компания предлагала Jetson TK1 (2014), TX1 (2015) и Jetson TX2 (2017) в качестве устройств вычисления границ для рабочих нагрузок AI. K1 был построен вокруг Kepler, X1 использовал Maxwell, X2 основан на Pascal, а Xavier, как можно было бы ожидать, основывался на Volta.

Новые платы для плат с 512 ядрами GPU (TX1 и TX2 были 256-ядерными решениями) с восьмиядерным процессором ARM неуточненного урожая. Nvidia не уточнила, является ли это дальнейшая эволюция и усовершенствование ядра процессора Denver, или если компания использует стандартный дизайн ARM Cortex для болота. Nvidia упоминает ARM8.2, что интересно, потому что собственный блог ARM гласит, что 8.2 включала поддержку «расширенной модели памяти, обработки данных с плавающей запятой с половинной точностью и знакомила с поддержкой RAS (надежность доступности) и расширением статистического профилирования (SPE) . «Масштабируемые векторные расширения (SVE) также теперь поддерживаются в этом измененном наборе инструкций.

Nvidia's Jetson Xavier Stuffs Volta Performance в крошечном форм-факторе

Другие обновления от TX2 до Jetson Xavier включают удвоенную оперативную память (от 8 ГБ до 16 ГБ), более чем в два раза большую пропускную способность (59,7 ГБ / с до 137 ГБ / с) и пару новых ускорителей глубокого обучения Nvidia. NVDLA описывается как решение обработки вывода для различных типов рабочих нагрузок на сайте Nvidia NVDLA.org (доступно здесь). Точный текст гласит:

Оборудование NVDLA состоит из следующих компонентов:

Convolution Core - оптимизированный высокопроизводительный механизм свертки. Единый процессор данных - одноточечный поисковый движок для функций активации. Планетарный процессор данных - плоский механизм усреднения для объединения. Обработчик данных канала - многоканальный механизм усреднения для расширенных функций нормализации. Data Reshape Engines - ускорение преобразования памяти в память для тензорных преобразований и операций копирования.

В том же отчете отмечается, что конфигурации являются модульными и предназначены для корректировки в зависимости от потребностей клиента, поэтому неясно, какое именно решение Nvidia отправляет с Xavier (документация компании проходит через два примера: «маленький» и «большой» «Модель Nvidia NVDLA».

Nvidia указывает, что их плата Xavier может растягиваться, чтобы соответствовать различным моделям использования на TDP от 10W до 30W, заявив, что платформа может поражать 10 TFLOPS FP16 и 20 TOPS с использованием INT8. Производительность FP32 составляет 5 TFLOPS. Плата является значительным шагом вперед для общей производительности AI и ML в Nvidia в этом форм-факторе и появляется на пятках таких объявлений, как HGX-2 - гораздо более крупная, «большая железная» конфигурация сервера, предназначенная для лабораторий с гораздо большим количеством наличных денег для снижения и больше энергии для сжигания. HGX-2 может нарисовать 10 киловатт, которые, как отмечает Next Platform, являются немного игровым процессом для такого рода нагрузки и возможностей. В 30 Вт Jetson Xavier предназначен для гораздо более скромных применений и платформ, где он по-прежнему приносит гораздо большую производительность, чем его предшественник.