Google Cloud TPU відповідає Volta в галузі машинного навчання за значно нижчими цінами
За останні кілька років компанія Nvidia зарекомендувала себе як основний лідер у галузі машинного навчання та обробки штучного інтелекту. Дизайнер GPU піднімається на ринок HPC більше десяти років тому, коли запустив G80 та його паралельну платформу API CUDA. Раннє керівництво виплатило за Nvidia; компанія займає 87 місць у списку TOP500 суперкомп'ютерів, у порівнянні з лише 10 для компанії Intel. Але, оскільки машинне навчання та робочий набір штучного інтелекту поширюються, з'являються постачальники, які надають Nvidia пробіг за свої гроші, включаючи новий Cloud TPU Google. Нові тести від RiseML ставлять обидва Nvidia та TPU Google головою до голови - і крива вартості сильно сприяє Google.
Оскільки ML та AI є новими та новими полями, важливо, щоб тести проводились чесно, а те, що тестування виконується, не виступає за одну архітектуру над іншою просто тому, що найкращі параметри тестування не є добре відомі. З цією метою RiseML дозволив інженерам Nvidia та Google переглянути чернетки результатів тестування та запропонувати коментарі та пропозиції. Компанія також стверджує, що її цифри були переглянуті додатковою групою сторонніх експертів у цій галузі.
Порівняння складається з чотирьох чіпів Google TPUv2 (які утворюють одне Cloud TPU) з 4-разовим GPU Nvidia Volta. Обидва вони мають 64 Гб загальної оперативної пам'яті, а набори даних були підготовлені однаково. RiseML тестувала модель ResNet-50 (точна інформація про конфігурацію доступна в повідомленні блогу), і команда досліджувала як сировину продуктивності (пропускну спроможність), точність та конвергенцію (алгоритм збігається, коли його вихід ближче і ближче до певного значення).
Пропонований розмір партії для TPU становить 1024, проте інші типи пакетів перевірені на запит читача. Nvidia працює краще на тих нижчих розмірах пакетів. У точності та зближенні, рішення TPU дещо краще (76,4 відсотка точок до 1 для Cloud TPU, у порівнянні з 75,7 відсотка для Volta). Поліпшення точності до кінцевої версії важко досягти, і команда RiseML робить невелику різницю між двома рішеннями більш важливими, ніж ви думаєте. Але де фактично виграє Google Cloud TPU, принаймні зараз, це стосується ціноутворення.
RiseML пише:
У кінцевому підсумку важливим є час і вартість, необхідні для досягнення певної точності. Якщо ми приймемо прийнятне рішення на 75,7 відсотка (найкраща точність, досягнута реалізацією графічного процесора), ми можемо обчислити вартість, щоб досягти такої точності на основі необхідних епох та швидкості навчання в зображеннях за секунду. Це виключає час, щоб оцінити моделі міжсекторальних епох та навчальний час.
Як показано вище, поточна ціна Cloud TPU дозволяє тренувати модель до 75,7 відсотка на ImageNet з нуля за 55 доларів менше, ніж за 9 годин! Підготовка до конвергенції на рівні 76,4% коштує 73 долара. Хоча V100 працюють так само швидко, що більш висока ціна та повільніший збіг реалізації призводять до значно більшої вартості для рішення.
Google може субсидувати вартість процесорів на хмарі, а точні характеристики продуктивності мікросхем ML будуть варіюватися в залежності від реалізації та майстерності програміста. Це далеко не останнє слово про продуктивність Volta, або навіть Volta в порівнянні з Google Cloud TPU. Але, принаймні, до теперішнього часу в ResNet-50 хмара Google TPU пропонує майже однакову продуктивність за значно нижчими цінами.
Читати далі
5 найбільш перспективних компаній в галузі розвитку AI
Чи це краде нашу роботу чи допомагає нам діагностувати хворобу, штучний інтелект буде мати величезний вплив на майбутнє людства.
Micron 5210 Ion Enterprise SSD перший в галузі промисловості QLC NAND
5210 Іон від Micron - це перший жорсткий диск QLC, який коли-небудь вийшов на ринок, і спрямований на підприємство, а не на споживачів.