Суб'єкти обробки тензора, орієнтовані на AI, тепер доступні в бета-версії

Протягом кількох років компанія Google працює над своїми блоками обробки тензора або TPU і випустила декілька робіт про продуктивність своєї індивідуальної архітектури при роботі над завантаженням порівняно з більш традиційними моделями, побудованими на процесорах або графічних процесорах. Зараз компанія відкриває ці компоненти для публічного бета-тестування, щоб допомогти дослідникам, які хочуть навчати навантаження на машинне навчання, і виконувати їх швидше.

Google говорив про те, як зробити цю можливість доступною для громадськості, оскільки вона демонструвала свої TPU першого покоління ще в 2016 році. Ці чіпи, однак, були корисними лише для навантаження на висновки. Простий спосіб зрозуміти різницю між навчанням системи машинного навчання та навантаженням на висновок полягає в тому, що коли ви створюєте свою модель та навчаєте її у завданні, яку ви хочете виконувати, тоді як останній є фактичним процесом застосування того, що машина "навчилася". Компанія Google ніколи не робила TPU першого покоління корпораціям для загального навантаження, але ці нові чіпи здатні вирішувати як моделі тренувань, так і вихідні навантаження, а також пропонують більш високий рівень продуктивності.

Ми не знаємо, як ці нові Cloud TPU виконують, але демонструється слайд-шоу, що порівнює попередній TPU Google в робочих навантаженнях висновків з еквівалентними частинами з Intel та Nvidia.

Haswell виходить на 13 операцій за байт. Технічно MLP0 (фіолетовий діамант) може мати користь від більшої настройки та більшої пропускної здатності пам'яті. Інші тести знаходяться під плоскими дахами, що означає, що вони не потрапляють у вузьке місце пам'яті. Google відзначає, що LSTM0 та MLP1 швидше працюють на Haswell, ніж у K80 Nvidia.

K80 Nvidia виштовхує більше TeraOPs / sec, ніж Haswell, а нахилена частина кривої ще крутіша. Практична продуктивність K80 практично нижча за теоретичні показники в більшості тестів, оскільки вихідні навантаження призжають низькою затримкою, що робить їх поганими для GPU. Незважаючи на це, Nvidia працює швидше або дорівнює Intel у всіх, крім двох робочих навантажень.

ТПУ показує дуже різні характеристики. Лише дві робочі навантаження не обмежені пропускною здатністю пам'яті, і кожне завантаження набагато швидше, ніж на GPU або CPU. MLP1 на 48,5x швидше в порівнянні з K80, а CNN0 - на 143x швидше, ніж у Haswell.

Нарешті, всі три набори даних об'єднані. Зірки показують показники TPU, трикутники - K80, а кола - для Haswell. У кожному випадку, без винятку, новий TPU Google значно швидше, ніж у Haswell або K80, а не в невеликих межах.

Кожне Cloud TPU складається з чотирьох окремих ASIC, з загальною кількістю 180 TFLOP продуктивності на плату. Google навіть планує ще більше збільшити ці пропозиції, використовуючи виділену мережу та систему масштабування, яка називається "TPU Pods". -Ed] Компанія Google стверджує, що навіть на такому ранньому етапі дослідник, який виконує один з своїх навчальних програм, може навчити комп'ютерну мережу навчання в загальнодоступній мережі TPU "тренувати ResNet-50 до очікуваної точності на тестовому сценарії ImageNet менш ніж за день" , все за добре за 200 доларів ".

Очікуйте, що в найближчі кілька років на стіні буде забито багато бруду, оскільки буквально кожен падає на цей ринок. AMD має Radeon Instinct, і Intel все ще має свої власні прискорювачі Xeon Phi (навіть якщо він скасовує свій майбутній Knights Hill), Knights Mill, запущений в грудні з додатковими ресурсами виконання та кращою утилізацією AVX-512. Незалежно від того, чи це призведе до закриття розриву з сімейством продуктів Tesla від Nvidia, ще не видно, але Google не є єдиною компанією, що розгортає спеціальний кремній для вирішення цього простору. Fujitsu має власну лінію прискорювачів у своїх роботах, а Amazon і Microsoft раніше розгортали FPGA у власних центрах обробки даних і хмарах.

Надходження до нових хмарних пропозицій Google виставляються на другий рахунок, середня вартість яких становить 6,50 дол. США за Cloud TPU за годину. Якщо вам цікаво зареєструватися в програмі, ви можете зробити це тут. Хмарне обчислення може почати життя трохи більше, ніж спроба ребрендингу, щоб захопити раніше доступні продукти під новим терміном, але вся напівпровідникова промисловість зараз галопується до цих нових обчислювальних парадигм якомога швидше. Від самостійних машин до цифрових помічників "хмарні обчислення" переосмислюються як щось більш значне, ніж "все, що я звичайно роблю, але з додатковою латентністю". Через десять років важко пам'ятати, чому підприємства спираються на щось інше .

Читати далі

Minecraft з відстеженням променів тепер доступний для всіх програвачів Windows 10

Зазвичай ви не думаєте про Minecraft як про реалістичну гру, але розробники наполегливо працюють над додаванням трасування RTX променів до гри протягом останніх восьми місяців. Сьогодні він нарешті вийшов з бета-версії, і це дійсно працює з блоковим виглядом Minecraft.

Quake II RTX тепер працює на графічних процесорах AMD завдяки технології відстеження променів Vulkan

Nvidia Quake II RTX тепер працює на графічних процесорах AMD за допомогою Vulkan, якщо у вас є правильний драйвер (і RX 6000).

Stadia тепер відтворюється на iPhone завдяки новому веб-додатку Google

Google пообіцяв підтримку iPhone, але політика Apple App Store завадила. Тепер нарешті є спосіб відтворити Stadia на iOS - просто запустіть Safari і перейдіть на сайт Stadia, щоб використовувати нову прогресивну веб-програму.

НАСА відмовляється від теплового зонда "Марс", що проростає "InSight"

Посадочний апарат NASA InSight вже більше двох років вивчає червону планету. За цей час InSIght передала дані про сейсмічну активність планети, погоду та навіть звук вітру, що дме. Також передбачалося передавати дані про внутрішню температуру планети, але NASA оголосило, що відмовляється від цієї спроби після того, як не змогло змусити тепловий зонд закопатися у дрібну марсіанську землю.