Nvidia анонсирует новые этапы производства Volta AI

Nvidia анонсирует новые этапы производства Volta AI

Nvidia продвигает свою собственную высокопроизводительную производительность в основных тестах AI и машинного обучения, поскольку, по-видимому, какой-то шлюз открылся для компаний, говорящих о показателях производительности для собственного аппаратного решения (это не совсем верно, но мы были видя, как много искусственного интеллекта, машинного обучения и подобных данных пересекают наши столы в последнее время). Согласно Nvidia, это поразило некоторые важные вехи, в том числе:

Nvidia также обсуждает использование Volta в качестве потенциальной замены ASIC, которая в противном случае обеспечивала бы превосходную функциональность в ограниченном наборе вариантов использования или сценариев. Непонятно - и я действительно имею в виду это - как следует интерпретировать такие требования. Nvidia отмечает: «Например, каждый графический процессор Tensla V100 Tensor Core обеспечивает 125 терафлоп производительности для глубокого обучения по сравнению с 45 терафлопами чипом Google TPU. Четыре чипа TPU в «Cloud TPU» обеспечивают 180 терафлоп производительности; для сравнения, четыре чипа V100 обеспечивают производительность 500 терафлоп ». Он также ссылается на проект fast.ai для оптимизации классификации изображений в наборе данных CIFAR-10 с использованием Volta, который превратился в лучшую в своем классе общую производительность, победив всех других конкурентов ,

Однако есть проблемы с использованием FLOPS для измерения производительности. FLOPS вычисляется простым математическим уравнением:

Nvidia анонсирует новые этапы производства Volta AI

В графических процессорах это работает на ядрах GPU * clock * две команды за такт (один умножается, один накапливается) = рейтинг X в TFLOPS. Это по сути предполагает, что GPU выполняет умножение и накапливается на каждом ядре GPU одновременно. Это предположение позволяет нам сравнительно быстро относить сравнительные показатели с использованием постоянной формулы, но есть огромная лазейка: если GPU # 1 обычно достигает только 50 процентов своих теоретических пиковых значений FLOP, он может быть превзойден GPU # 2, который может иметь значительно меньшую максимальная теоретическая производительность FLOP, но все же превосходит уровень GPU №1, если он более эффективен. Это также относится к любому сравнению между двумя различными решениями.

Nvidia анонсирует новые этапы производства Volta AI

Например, недавние сообщения о облачном TPU Google, которые были более эффективными, чем Volta, были получены из тестов ResNet-50. Результаты Nvidia относятся к использованию набора данных CIFAR-10. Команда Dawnbench не регистрирует результаты для TPU в этом тесте, и сообщение блога fast.ai на эту тему может объяснить, почему это:

Экземпляры Google TPU (теперь в бета-версии) также могут быть хорошим подходом, поскольку результаты этого конкурса показывают, но имейте в виду, что единственный способ использовать TPU - это принять блокировку для всех:

Аппаратное обеспечение Google (TPU) Программное обеспечение Google (Tensorflow) Облачная платформа Google (GCP). Более проблематично, нет возможности напрямую кодировать TPU, что сильно ограничивает алгоритмическое творчество (что, как мы видели, является самой важной частью производительности ). Учитывая ограниченную поддержку нейронной сети и алгоритма поддержки TPU (например, отсутствие поддержки повторяющихся нейронных сетей, которые жизненно важны для многих приложений, включая собственные системы перевода на языке Google), это ограничивает как проблемы, которые вы можете решить, так и способы их решения.

Поскольку аппаратное и программное обеспечение продолжает развиваться, мы увидим, как эти ограничения и возможности развиваются вместе с ними. Совершенно ясно, что Volta - сильный нападающий на рынке AI / ML в целом, с отличной производительностью и гибкостью для решения многих различных задач. Как это изменится, так как больше пользовательских аппаратных средств выходит в интернет, а дебют решений нового поколения все еще неясен.