Интерактивные модули обработки тензоров от Google теперь доступны в бета-версии

Google уже несколько лет работает над своими модулями Tensor Processing или TPU и выпустил несколько статей о производительности своей настраиваемой архитектуры при выводе рабочих нагрузок по сравнению с более традиционными моделями, построенными на процессорах или графических процессорах. Теперь компания открывает эти части для публичного бета-тестирования, чтобы помочь исследователям, которые хотят тренировать рабочие нагрузки на машинах и запускать их быстрее.

Google говорил о том, чтобы сделать эту возможность общедоступной, поскольку она продемонстрировала свои TPU первого поколения еще в 2016 году. Однако эти чипы были хороши только для рабочих нагрузок. Простой способ понять разницу между обучением системы машинного обучения и рабочей нагрузкой вывода состоит в том, что первая - это когда вы создаете свою модель и тренируете ее в задачах, которые вы хотите выполнить, в то время как последний является фактическим процессом применения того, что машина «научилась». Google никогда не делала свое TPU первого поколения доступным для корпораций для общих рабочих нагрузок, но эти новые микросхемы способны справляться как с нагрузкой модели, так и с нагрузкой вывода, а также предлагают более высокий уровень производительности.

Мы не знаем, как работают эти новые облачные TPU, но слайд-шоу, сравнивающее предыдущий TPU Google с нагрузкой на вывод из эквивалентных частей от Intel и Nvidia, показано ниже:

Haswell заканчивается на 13 операций за байт. MLP0 (фиолетовый алмаз) теоретически может выиграть как от большей настройки, так и от большей пропускной способности памяти. Другие тесты находятся под плоской крышей, что означает, что они не попадают в узкое место памяти. Google отмечает, что LSTM0 и MLP1 работают быстрее на Хасуэлле, чем у K80 от Nvidia.

N80 от Nvidia отталкивает больше TeraOPs / sec, чем Haswell, и наклонная часть кривой еще круче. Практическая производительность K80 в большинстве тестов ниже теоретической, поскольку рабочая нагрузка требует низкой латентности, что делает их плохого соответствия графическим процессорам. Несмотря на это, Nvidia быстрее или равна Intel во всех, кроме двух рабочих нагрузках.

ТПУ показывает очень разные характеристики. Только две рабочие нагрузки не ограничены полосой пропускания памяти, и каждая отдельная рабочая нагрузка намного быстрее, чем на графическом процессоре или процессоре. MLP1 на 48,5x быстрее по сравнению с K80, тогда как CNN0 в 143 раза быстрее, чем Haswell.

Наконец, все три набора данных объединены. Звезды показывают производительность TPU, треугольники представляют K80, а круги - для Haswell. В каждом случае, без исключения, новый TPU от Google значительно быстрее, чем либо Haswell, либо K80, а не небольшая прибыль.

Каждый облачный TPU состоит из четырех отдельных ASIC, в общей сложности 180 TFLOPs для каждой платы. У Google даже есть планы по расширению этих предложений дальше, с выделенной сетью и системами масштабирования, которые она называет «Подстанциями TPU». [Пожалуйста, не ешьте их тоже. -Ed] Google утверждает, что даже на этом раннем этапе исследователь, следуя одному из своих учебных пособий, мог обучить сеть машинного обучения в публичной сети ТПУ, чтобы «обучить ResNet-50 ожидаемой точности на тестовой задаче ImageNet менее чем за один день» , все для хорошо под $ 200. "

Ожидайте, что в ближайшие несколько лет на стене появится много грязи, так как буквально все наваливаются на этот рынок. AMD имеет Radeon Instinct, а Intel по-прежнему имеет свои собственные ускорители Xeon Phi (даже если она отменила свой предстоящий Knights Hill), Knights Mill, запущенная в декабре, с дополнительными ресурсами выполнения и лучшим использованием AVX-512. Будет ли это закрывать разрыв с семейством продуктов Nvidia Tesla, еще предстоит увидеть, но Google не является единственной компанией, которая развертывает пользовательский кремний для решения этой проблемы. Fujitsu имеет собственную линейку ускорителей в своих работах, и Amazon и Microsoft ранее развертывали FPGA в своих центрах обработки данных и облаках.

Новые предложения Google для облачных вычислений оплачиваются вторым, со средней стоимостью 6,50 доллара за облачный TPU в час. Если вам интересно узнать о регистрации программы, вы можете сделать это здесь. Облачные вычисления, возможно, начали жизнь как нечто большее, чем попытка ребрендинга захватить ранее доступные продукты под броским новым термином, но вся индустрия полупроводников теперь скачет к этим новым вычислительным парадигмам так быстро, как только может. «Самостоятельные автомобили» для цифровых помощников «облачных вычислений» заново изобретаются как нечто более значимое, чем «все, что я обычно делаю, но с дополнительной задержкой». Через десять лет может быть трудно вспомнить, почему предприятия полагались на что-либо еще ,

Читать далее

PlayStation 5 будет доступна в сети только в день запуска

PlayStation 5 не будет доступна в магазинах в день запуска, и если вы захотите приобрести твердотельный накопитель M.2, чтобы расширить его хранилище, у вас будет время подумать об этой покупке.

Minecraft с функцией трассировки лучей теперь доступен для всех игроков с Windows 10

Обычно вы не думаете о Minecraft как о реалистичной игре, но разработчики усердно работали над добавлением трассировки лучей RTX в игру в течение последних восьми месяцев. Сегодня он наконец-то вышел из бета-версии, и он действительно работает с блочным внешним видом Minecraft.

Игровая консоль Aya Neo на базе AMD Ryzen доступна для предзаказа

Nintendo Switch оказался чрезвычайно популярным среди геймеров во многом благодаря своей портативности. Однако он немного слабее по сравнению с другими игровыми консолями. Китайский стартап стремится предложить устройство в стиле Switch с гораздо большей мощностью и доступом ко множеству игр на Windows.

Вот ваши варианты для доступного GPU в 2021 году

Те, кто ищет доступный GPU для 200 долларов, не совсем без вариантов. Мы проводим возможности.