Google оголошує 8x швидше TPU 3.0 для AI, машинного навчання

Google оголошує 8x швидше TPU 3.0 для AI, машинного навчання

Протягом останніх років компанія Google створює свої власні TPU (блоки обробки тензора) для обробки різноманітних завдань обробки, пов'язаних з штучним інтелектом та машинного навчання. Google вперше оголосив про існування TPU в 2016 році, але заявив, що воно використовувало їх понад три роки. Останнім часом ТПУ другого покоління компанії зробили новини для значного покращення продуктивності, а апаратне забезпечення третього покоління, очевидно, продовжить цю тенденцію.

За словами генерального директора Google Sundar Pichai, нові стручки TPU 3.0 є на 8x потужнішими, ніж Google TPU 2.0, які ми раніше покрили, і Pichai заявили, що вони енергійні, достатній для водяного охолодження - щось попереднє TPU просто притулок Не потрібно. Зображення TechCrunch показує мідну систему охолодження, причому вода з тієї ж труби проходить через всі чотири охолоджувальні пластини.

Зображення від TechCrunch
Зображення від TechCrunch

Тож що ми знаємо про TPU 3.0? Не багато - але ми можемо зробити кілька освічених здогадок. Згідно з власною документацією Google, TPU 1.0 був побудований на 28-нм процесовому вузлі в TSMC, що працював на частоті 700 МГц, і споживав 40 Вт потужності. Кожна PCB TPU підключена через PCIe 3.0 x16.

TPU 2.0 внесла деякі суттєві зміни. На відміну від TPU v1, який міг обробляти лише 8-бітні цілі операції, Google додав підтримку одноточних поплавців у TPU v2 та додав 8 Гб пам'яті HBM для кожного TPU для підвищення продуктивності. Кластер TPU складається з 180 TFLOPS загальної обчислювальної потужності, 64 Гб пам'яті HBM і 2,400 Гбіт / с загальної пропускної здатності пам'яті (останній кинутий суто з метою зробити ентузіастів ПК стогнати з заздрістю).

На відміну від TPU v1, який використовував 3,5-дюймові відсіки для дисків як форм-фактор, TPU v2 зварювався разом у групах з чотирьох чіпів ASIC. Google в даний час розгортає TPU в кластерах до 64 плат, на 11,5 PFLOPS на кластері та 4TB загального об'єму HBM. Витрати на споживання електроенергії були вже оцінені як досить високі з минулорічною моделлю, і ці рішення споживають ще більше енергії, тому перемикання на водяне охолодження має сенс - це, напевно, єдиний спосіб подолати вироблення теплової енергії, особливо якщо компанія Google наповнює 64 ТПУ в єдиний кластер.

Ще немає жодного слова щодо інших розширених можливостей процесорів, і вони, як видно, все-таки для власного використання Google, а не ширшого застосування. Pichai заявляє, що TPU v3 може обробляти 100 PFLOPS, але це має бути кластеризований варіант, якщо Google не розкриє новий попередній проект, який ми називаємо "Google Stellar Equivalent Thermal Density". Ми б очікували, що почує про це , якщо це було так. Оскільки більшу кількість компаній потрапляють на банер AI / ML, очікуйте, що більше фірм кидають капелюхи в це помовче кільце.

Читати далі

Бета-тести швидкості Starlink бета-тестують традиційний супутниковий Інтернет
Бета-тести швидкості Starlink бета-тестують традиційний супутниковий Інтернет

За даними Ookla Speedtest та проаналізованими нашими колегами з PCMag, Starlink відповідає своїм високим вимогам щодо швидкості.

Астрономи, нарешті, можуть знати джерело швидких радіостанцій
Астрономи, нарешті, можуть знати джерело швидких радіостанцій

Тріо нових досліджень повідомляють про FRB у нашій власній галактиці. Оскільки цей сигнал був набагато ближчим, ніж минулі сигнали, вчені змогли відстежити його до певного типу нейтронної зірки, відомого як магнітар.

Новий SoC від M1 від Apple виглядає чудово, він не швидший за 98 відсотків ноутбуків для ПК
Новий SoC від M1 від Apple виглядає чудово, він не швидший за 98 відсотків ноутбуків для ПК

Новий кремній M1 від Apple справді виглядає приголомшливо, але це не швидше 98 відсотків проданих ПК минулого року, незважаючи на те, що заявляє компанія.

Що це означає для ринку ПК, якщо Apple робить найшвидший процесор?
Що це означає для ринку ПК, якщо Apple робить найшвидший процесор?

SoC від M1 від Apple може мати глибокий вплив на ринок ПК. Через 25 років x86 може перестати бути найефективнішою архітектурою центрального процесора, яку ви практично можете придбати.