Новий суперкомп'ютер "Андромеда" у масштабі вафельних церебрів має 13,5 мільйонів ядер

Церебри оприлюднили свій новий суперкомп'ютер AI Andromeda в SC22. Маючи 13,5 мільйонів ядер у 16 системах CEREBRAS CS-2, Андромеда може похвалитися ексафлопом обчислення AI та 120 Petaflops з щільного обчислення. Його обчислювальний робочий коник-це вафельна масштаб Cerebras, BanyCore Processor, WSE-2.

Кожна вафля WSE-2 має три фізичні площини, які обробляють арифметику, пам’ять та комунікації. Саме по собі 40 Гб на борту SRAM площини пам'яті може утримувати цілий Bertlarge. Але арифметична площина також має близько 850 000 незалежних ядер і 3,4 мільйона FPU. Ці ядра мають колективну 20 пб/с внутрішньої пропускної здатності через декартову сітку літака.

Церебри підкреслюють те, що він називає "майже ідеальним лінійним масштабуванням", а це означає, що для певної роботи два CS-2 виконають цю роботу вдвічі швидше, ніж один, три займуть третину часу тощо. Як? Системи SC-2 Андромеди покладаються на паралелізацію, зазначили Церебри, від ядрів на кожній вафлі до тканини Swarmx, координуючи їх усіх. Але таланти суперкомп'ютера виходять за рамки його вже вражаючих 16 вузлів. Використовуючи ту саму паралелізацію даних, дослідники можуть поступатися разом до 192 систем CS-2 для однієї роботи.

Андромеда вмикається з перемогами EPYC

Андромеда отримує свої дані від банку 64-ядерних процесорів AMD EPYC 3. Ці процесори, заявили AMD електронною поштою, працюють у тандемі з вафлями CS-2, роблячи "широкий спектр даних до та після обробки".

"AMD EPYC - найкращий вибір для цього типу кластеру", - сказав нам засновник мозку та генеральний директор Ендрю Фельдман, - оскільки він пропонує неперевершену щільність ядра, ємність пам'яті та ІО. Це зробило очевидним вибором подачі даних суперкомп'ютеру Андромеди ».

Між шістнадцятьма двигунами в масштабах вафельних виробів, Андромеда працює на 18 164 ядрах EPYC 3. Однак ця пропускна здатність приходить за ціною. За всіма словами, система споживає близько 500 кіловат, коли вона працює на піку.

Ідіть великим або йдіть додому

Андромеда - це не найшвидший суперкомп'ютер на Землі. Frontier, суперкомп'ютер Національної лабораторії Oak Ridge, здатної робити моделювання ядерної зброї, пройшов марку Exaflop на початку цього року. Frontier також працює з більшою точністю, 64-бітна до 16-бітної половини Андромеди. Але не кожна операція потребує точності ядерної зброї. Андромеда не намагається бути кордоном.

"Вони більша машина. Ми їх не б'ємо. Вони коштують 600 мільйонів доларів на будівництво. Це менше 35 мільйонів доларів », - сказав Фельдман.

Також Андромеда не намагається узурпувати Polaris, кластер з більш ніж двох тисяч GPUS NVIDIA A100 в Національній лабораторії Аргонна. Дійсно, як і Андромеда, сам Поларіс використовує ядра AMD EPYC, щоб зробити попередню та післяобробку. Натомість кожен суперкомп'ютер перевершує дещо інший тип роботи.

Загалом, процесори є загальними, тоді як ASICS (включаючи GPU) та FPGA є більш спеціалізованими. Ось чому криптовалюта люблять графічні процесори. Блокчейн передбачає цілу масу повторюваної математики. Але Андромеда все ще спеціалізується. Він досконалий при обробці великих розріджених матриць-багатовимірних масивів даних про тензор, які в основному є нулями.

AI є глибоко інтенсивним даними, як в трубопроводі, так і в фактичному обчисленні AI. Отже, сказав Фельдман, Андромеда використовує процесори EPYC для впорядкування процесу. "Машини на основі AMD EPYC сидять на серверах поза мозками CS-2",-сказав Фельдман, щоб координувати та підготувати дані. Потім тканини Swarmx та Memoryx Andromeda.

Кластер GPU повинен координувати між кожною основою, карткою та серверною стійкою. Це спричиняє неминучу затримку. Також є експоненціальна накладна пам'ять, оскільки мережі стають все більшими та складнішими. На відміну від цього, WSE-2 обробляє велику частину свого інформаційного трубопроводу в межах одного обладнання. У той же час, процесори масштабів вафельних масштабів Cerebras можуть зробити більше за одним (гігантським) кремнієм, ніж у споживчого процесора або GPU. Це дозволяє Андромеді впоратися з глибокими паралельними завданнями.

Великі мови моделі

Так само, як на поверхневих вулицях витрачається гоночний гоночний гоночний збір, Андромеда знаходить свій крок у масштабі. Ніде це не очевидніше, ніж його втікаючий успіх у великих мовних моделях (LLMS).

Уявіть собі електронну таблицю Excel з рядком і стовпцем для кожного слова в цілому англійській мові. Моделі обробки природної мови використовують матриці, спеціальні сітки, не на відміну від електронної таблиці, щоб відстежувати взаємозв'язки між словами. Ці моделі можуть мати мільярди, навіть десятки мільярдів, параметрів. Їх послідовності можуть тривати 50 000 жетонів. Ви б думали, що в міру того, як навчальний набір зростає, цей експоненціальний накладний бал знову вдарить. Але LLM часто працюють, використовуючи рідкісні тензори Андромеда.

Клієнти Andromeda, включаючи Astrazeneca та Glaxosmithkline, звітують про успіх, використовуючи LLMS про Андромеду для дослідження «оміків», включаючи геном ковдру та епігеном. Під час одного експерименту в Національній лабораторії енергетичних технологій вчені описують, що "неможливо" в GPU працюють з Андромедою, що Polaris просто не міг завершити. І це може не стикатися з ядерними бомбами, але Андромеда також працює над дослідженнями Fusion.

"Поєднання потужності AI CS-2 з точним моделюванням Лассена створює комп'ютер COGSIM, який відкриває нові двері для експериментів з інерційним укладенням (ICF) в Національному закладі запалювання",-сказав Брайан Спірс з Національної лабораторії Лоуренса Лівермора.

Андромеда зустрічається з академією

В даний час Андромеда живе в Colovore, центрі обробки даних HPC у Санта -Кларі. Але Cerebras також виділила час для науковців, а студентам ступеня безкоштовно користуватися Андромедою.

І є ще одна річ, яка є студентами, в машинному навчанні та інших місцях, можливо, захоче зазначити: Андромеда добре грає з Python. У машинному навчанні це ставки таблиці, але ми маємо на увазі дуже добре. Ви можете надіслати роботу AI в Андромеду, Cerebras каже: "Швидко і безболісно з ноутбука Юпітера, і користувачі можуть перейти з однієї моделі на іншу з кількома клавішами".

"Надзвичайно, що церебри надали аспірантам безкоштовний доступ до кластера в цей великий", - сказав Матео Еспіноса, кандидат доктора в Кембриджському університеті у Великобританії. Еспіноса, який раніше працював у Cerebras, співпрацює з Андромеди для своєї дисертації про пояснений штучний інтелект. «Андромеда забезпечує 13,5 мільйонів ядер AI та майже ідеального лінійного масштабування на найбільших мовних моделях, без болю розподіленого обчислювального та паралельного програмування. Це мрія кожного аспіранта ML. "

Машинне навчання повинно плавати вгору за течією у постійно зростаючій річці даних. До певної точки ми можемо просто кинути більше обчислювальних обладнання на завдання. Але всередині мереж і між ними затримка починає швидко складатися. Щоб зробити таку ж суму за даний момент, вам доведеться кинути більше енергії на проблему. Великий обсяг даних робить пропускну здатність власного вузького місця. Ця «потрійна точка» - це місце, де церебри прагнуть зробити свій слід.

Усі зображення Андромеди люб’язно надано церебрами.