Nvidia анонсирует новые этапы производства Volta AI

Nvidia анонсирует новые этапы производства Volta AI

Nvidia продвигает свою собственную высокопроизводительную производительность в основных тестах AI и машинного обучения, поскольку, по-видимому, какой-то шлюз открылся для компаний, говорящих о показателях производительности для собственного аппаратного решения (это не совсем верно, но мы были видя, как много искусственного интеллекта, машинного обучения и подобных данных пересекают наши столы в последнее время). Согласно Nvidia, это поразило некоторые важные вехи, в том числе:

Nvidia также обсуждает использование Volta в качестве потенциальной замены ASIC, которая в противном случае обеспечивала бы превосходную функциональность в ограниченном наборе вариантов использования или сценариев. Непонятно - и я действительно имею в виду это - как следует интерпретировать такие требования. Nvidia отмечает: «Например, каждый графический процессор Tensla V100 Tensor Core обеспечивает 125 терафлоп производительности для глубокого обучения по сравнению с 45 терафлопами чипом Google TPU. Четыре чипа TPU в «Cloud TPU» обеспечивают 180 терафлоп производительности; для сравнения, четыре чипа V100 обеспечивают производительность 500 терафлоп ». Он также ссылается на проект fast.ai для оптимизации классификации изображений в наборе данных CIFAR-10 с использованием Volta, который превратился в лучшую в своем классе общую производительность, победив всех других конкурентов ,

Однако есть проблемы с использованием FLOPS для измерения производительности. FLOPS вычисляется простым математическим уравнением:

Nvidia анонсирует новые этапы производства Volta AI

В графических процессорах это работает на ядрах GPU * clock * две команды за такт (один умножается, один накапливается) = рейтинг X в TFLOPS. Это по сути предполагает, что GPU выполняет умножение и накапливается на каждом ядре GPU одновременно. Это предположение позволяет нам сравнительно быстро относить сравнительные показатели с использованием постоянной формулы, но есть огромная лазейка: если GPU # 1 обычно достигает только 50 процентов своих теоретических пиковых значений FLOP, он может быть превзойден GPU # 2, который может иметь значительно меньшую максимальная теоретическая производительность FLOP, но все же превосходит уровень GPU №1, если он более эффективен. Это также относится к любому сравнению между двумя различными решениями.

Nvidia анонсирует новые этапы производства Volta AI

Например, недавние сообщения о облачном TPU Google, которые были более эффективными, чем Volta, были получены из тестов ResNet-50. Результаты Nvidia относятся к использованию набора данных CIFAR-10. Команда Dawnbench не регистрирует результаты для TPU в этом тесте, и сообщение блога fast.ai на эту тему может объяснить, почему это:

Экземпляры Google TPU (теперь в бета-версии) также могут быть хорошим подходом, поскольку результаты этого конкурса показывают, но имейте в виду, что единственный способ использовать TPU - это принять блокировку для всех:

Аппаратное обеспечение Google (TPU) Программное обеспечение Google (Tensorflow) Облачная платформа Google (GCP). Более проблематично, нет возможности напрямую кодировать TPU, что сильно ограничивает алгоритмическое творчество (что, как мы видели, является самой важной частью производительности ). Учитывая ограниченную поддержку нейронной сети и алгоритма поддержки TPU (например, отсутствие поддержки повторяющихся нейронных сетей, которые жизненно важны для многих приложений, включая собственные системы перевода на языке Google), это ограничивает как проблемы, которые вы можете решить, так и способы их решения.

Поскольку аппаратное и программное обеспечение продолжает развиваться, мы увидим, как эти ограничения и возможности развиваются вместе с ними. Совершенно ясно, что Volta - сильный нападающий на рынке AI / ML в целом, с отличной производительностью и гибкостью для решения многих различных задач. Как это изменится, так как больше пользовательских аппаратных средств выходит в интернет, а дебют решений нового поколения все еще неясен.

Читать далее

Новая серия AMD Radeon RX 6000 оптимизирована для борьбы с амперами
Новая серия AMD Radeon RX 6000 оптимизирована для борьбы с амперами

AMD представила серию RX 6000 сегодня. Впервые с момента покупки ATI в 2006 году использование графических процессоров AMD на платформах AMD даст определенные преимущества.

Новые детали Intel Rocket Lake: обратная совместимость, графика Xe, Cypress Cove
Новые детали Intel Rocket Lake: обратная совместимость, графика Xe, Cypress Cove

Intel опубликовала немного больше информации о Rocket Lake и его 10-нм процессоре, который был перенесен на 14-нм.

Хаббл исследует 16 "Психеи", астероид стоимостью 10 000 квадриллионов долларов
Хаббл исследует 16 "Психеи", астероид стоимостью 10 000 квадриллионов долларов

Исследователи только что завершили ультрафиолетовое обследование 16 Psyche, сверхценного астероида, который НАСА планирует посетить в 2026 году.

Intel представляет новые мобильные графические процессоры Xe Max для создателей контента начального уровня
Intel представляет новые мобильные графические процессоры Xe Max для создателей контента начального уровня

Intel выпустила новый потребительский мобильный графический процессор, но у него очень специфический вариант использования, по крайней мере, на данный момент.