Облачный TPU от Google соответствует требованиям Volta в обучении машинам при гораздо более низких ценах

Облачный TPU от Google соответствует требованиям Volta в обучении машинам при гораздо более низких ценах

За последние несколько лет Nvidia зарекомендовала себя как крупный лидер в области машинного обучения и обработки искусственного интеллекта. Разработчик графического процессора появился на рынке HPC более десяти лет назад, когда он запустил G80 и API параллельной вычислительной платформы CUDA. Раннее лидерство окупилось для Nvidia; компания занимает 87 мест в списке суперкомпьютеров TOP500, по сравнению с 10 для Intel. Но по мере того, как растут машинное обучение и рабочая нагрузка на искусственный интеллект, появляются поставщики, чтобы дать Nvidia заработанные деньги, в том числе новый облачный TPU от Google. Новые контрольные показатели от RiseML ставят как Nvidia, так и TPU от Google, а кривая затрат сильно благоприятствует Google.

Поскольку ML и AI являются новыми и новыми областями, важно, чтобы тесты проводились справедливо и что эталонные тесты не поддерживают одну архитектуру над другой просто потому, что лучшие параметры тестирования не известны. С этой целью RiseML разрешил инженерам Nvidia и Google просматривать проекты своих результатов тестирования и предлагать комментарии и предложения. Компания также заявляет, что ее данные были рассмотрены дополнительной группой внешних экспертов в этой области.

Сравнение между четырьмя чипами Google TPUv2 (которые образуют один Cloud TPU) против 4x графических процессоров Nvidia Volta. Оба имеют 64 ГБ общей оперативной памяти, и наборы данных были обучены таким же образом. RiseML проверил модель ResNet-50 (данные о точном конфигурировании доступны в сообщении блога), и команда изучила как сырую производительность (пропускную способность), точность и конвергенцию (алгоритм сходится, когда его результат приближается и приближается к определенному значению).

Облачный TPU от Google соответствует требованиям Volta в обучении машинам при гораздо более низких ценах

Предлагаемый размер партии для ТПУ равен 1024, но другие размеры партии были протестированы в запросе читателя. Nvidia работает лучше в этих более низких размерах партии. В точности и конвергенции решение TPU несколько лучше (точность 76,4% для Cloud TPU по сравнению с 75,7% для Volta). Усовершенствования точности верхнего уровня трудно найти, и команда RiseML делает небольшую разницу между этими двумя решениями более важной, чем вы думаете. Но там, где Google Cloud TPU действительно выигрывает, по крайней мере, сейчас, это цена.

Облачный TPU от Google соответствует требованиям Volta в обучении машинам при гораздо более низких ценах

RiseML пишет:

В конечном счете, важно то время и затраты, которые требуется для достижения определенной точности. Если мы примем приемлемое решение на уровне 75,7 процента (лучшая точность, достигнутая в реализации GPU), мы можем рассчитать стоимость достижения этой точности на основе требуемых эпох и скорости обучения в изображениях в секунду. Это исключает время для оценки модели между эпохами и временем начала обучения.

Как показано выше, текущая цена Cloud TPU позволяет обучить модель 75,7% на ImageNet с нуля за 55 долларов США менее чем за 9 часов! Обучение конвергенции на 76,4 процента стоит 73 доллара. В то время как V100s работают так же быстро, более высокая цена и более медленная конвергенция реализации приводят к значительно более высокой стоимости решения.

Google может субсидировать ценовую политику облачного процессора, а точные характеристики производительности чипов ML будут различаться в зависимости от реализации и навыков программиста. Это далеко не последнее слово о производительности Volta, или даже Volta, по сравнению с облачным TPU от Google. Но по крайней мере пока, в ResNet-50, облачный TPU Google, похоже, предлагает почти идентичную производительность по значительно более низким ценам.