Новый суперкомпьютер в масштабе цереблас.
Cerebras представила свой новый суперкомпьютер AI Andromeda в SC22. С 13,5 миллионами ядер в 16 системах CS-2 Cerebras Andromeda может похвастаться Exaflop AI Compute и 120 Petaflops of Dense Compute. Его вычислительная рабочая лошадка-масштаб церебров, Manycore Processor, WSE-2.
Каждая пластина WSE-2 имеет три физических плоскости, которые обрабатывают арифметику, память и связь. Само по себе 40 ГБ встроенной плоскости памяти может удерживать целый бертларж. Но арифметическая плоскость также имеет около 850 000 независимых ядер и 3,4 миллиона FPU. Эти ядра имеют коллективные 20 PB/S или около того внутренней пропускной способности через картезианскую сетку плоскости связи.
Cerebras подчеркивает то, что он называет «почти идеальным линейным масштабированием», что означает, что для данной работы два CS-2 будут выполнять эту работу в два раза быстрее, чем один, три займут треть времени и так далее. Как? По словам Церебраса, системы Andromeda SC-2 полагаются на параллелизацию, от ядер на каждой пластине до ткани Swarmx, координирующей их всех. Но таланты суперкомпьютера выходят за рамки его и без того впечатляющих 16 узлов. Используя ту же параллелизацию данных, исследователи могут следовать до 192 систем CS-2 для одной работы.
Andromeda увеличивается с Epyc Wins
Andromeda получает свои данные от банка из 64-ядочных процессоров AMD EPYC 3. Эти процессоры, по словам AMD по электронной почте, работают в тандеме с вафлями CS-2, выполняя «широкий спектр данных до и после обработки».
«AMD EPYC - лучший выбор для этого типа кластера», - сказал нам основатель и генеральный директор Cerebras Эндрю Фельдман: «Потому что он предлагает беспрецедентную плотность ядра, емкость памяти и IO. Это сделало очевидным выбором для подачи данных в суперкомпьютер Andromeda ».
Между его шестнадцатью двигателями масштабного масштаба второго поколения Andromeda работает на 18 164 ядрах Epyc 3. Тем не менее, эта пропускная способность достигается по какой -то цене. В общем, система потребляет около 500 киловатт, когда она работает на пике.
Со щитом или на щите
Андромеда не самый быстрый суперкомпьютер на Земле. Frontier, суперкомпьютер в Национальной лаборатории Oak Ridge, способной выполнять моделирование ядерного оружия, прошел отметку Exaflop в начале этого года. Frontier также работает с более высокой точностью, 64-битной до 16-разрядной половины Andromeda. Но не каждой операции нуждается в точке ядерного оружия. Андромеда не пытается быть границей.
«Это большая машина. Мы не бьем их. Они стоят 600 миллионов долларов на строительство. Это менее 35 миллионов долларов », - сказал Фельдман.
Андромеда не пытается узурпировать Polaris, кластер из более чем двух тысяч графических процессоров NVIDIA A100 в национальной лаборатории Аргоронн. Действительно, как и Андромеда, сам Polaris использует ядра AMD Epyc для выполнения до и после обработки. Вместо этого каждый суперкомпьютер превосходит немного разных типов работы.
Вообще говоря, процессоры являются универсалами, в то время как ASIC (включая графические процессоры) и FPGA более специализированы. Вот почему крипто -шахтеры любят графические процессоры. Блокчейн включает в себя много повторяющейся математики. Но Андромеда все еще более специализирована. Он превосходен при обработке больших разреженных матриц-многомерные массивы тензорных данных, которые в основном являются нулями.
ИИ глубоко интенсивный данных, как в трубопроводе, так и в реальном вычислении ИИ. Итак, сказал Фельдман, Андромеда использует процессоры EPYC для оптимизации процесса. «Машины на основе AMD EPYC располагаются на серверах за пределами CS-2 CSERAS»,-сказал Фельдман, чтобы координировать и подготовить данные. Затем вступают во владение ткани Andromeda Swarmx и MemoryX.
Кластер GPU должен координироваться между каждым ядром, картой и серверной стойкой. Это несет неизбежную задержку. Также есть экспоненциальные накладные расходы, так как сети становятся все больше и сложнее. Напротив, WSE-2 обрабатывает большую часть своего информационного трубопровода в том же куске оборудования. В то же время, процессоры масштабируют масштабные масштабы Cerebras могут делать больше на одном (гигантском) куске кремния, чем потребительский процессор или графический процессор. Это позволяет Андромеде справляться с глубоко параллельными задачами.
Большие языковые модели
Точно так же, как гоночный автомобиль Формулы -1 тратится на улицы на поверхности, Андромеда находит свой шаг в масштабе. Нигде это не более очевидно, чем его безудержный успех с большими языковыми моделями (LLMS).
Представьте себе электронную таблицу Excel с рядом и столбцом для каждого слова на всем английском языке. Модели обработки естественного языка используют матрицы, специальные сетки, не отличающиеся от электронной таблицы, для отслеживания отношений между словами. Эти модели могут иметь миллиарды, даже десятки миллиардов параметров. Их последовательности могут составлять 50 000 токенов длиной. Вы могли бы подумать, что по мере роста тренировок этот экспоненциальный накладной удар нанесет удар снова. Но LLM часто работают, используя редкие тензоры Андромеда.
Клиенты Andromeda, включая Astrazeneca и GlaxoSmithkline, сообщают о успехе с использованием LLMS на Andromeda для исследования «OMIC», включая ковидный геном и эпигеном. Во время одного эксперимента в Национальной лаборатории энергетических технологий ученые описывают «невозможную работу» с Андромедой, которую Polaris просто не мог завершить. И это может не сокращать количество ядерных бомб, но Андромеда также работает над исследованиями Fusion.
«Сочетание мощности ИИ CS-2 с точным моделированием Lassen создает компьютер Cogsim, который открывает новые двери для экспериментов по инерционному заключению (ICF) в Национальном учреждении зажигания»,-сказал Брайан Спирс из Национальной лаборатории Лоуренса Ливермор.
Андромеда встречается с научными кругами
Андромеда в настоящее время живет в Коловоре, в центре обработки данных HPC в Санта -Кларе. Но Cerebras также предоставили ученым и аспирантам бесплатно, чтобы использовать Andromeda.
И есть еще одна вещь, связанные с аспирантами, в машинном обучении и в других местах, возможно, пожелает отметить: Андромеда хорошо играет с Python. В машинном обучении это столовые ставки, но мы имеем в виду очень хорошо. Вы можете отправить работу AI Andromeda, Cerebras говорит: «Быстро и безболезненно из ноутбука Юпитера, и пользователи могут переключаться с одной модели на другую с несколькими нажатиями клавиш».
«Чрезвычайно, что цереблы предоставили аспирантам бесплатно доступ к кластеру такого большого», - сказал Матео Эспиноса, кандидат докторантов в Кембриджском университете в Соединенном Королевстве. Эспиноса, который ранее работал в Cerebras, работает с Андромедой для своего тезиса по объяснению искусственного интеллекта. «Andromeda доставляет 13,5 миллиона ядер AI и почти идеальное линейное масштабирование в самых больших языковых моделях без боли распределенного вычислительного и параллельного программирования. Это мечта каждого аспиранта ML ».
Машинное обучение должно плавать вверх по течению в постоянно растущей реке данных. К качеству мы можем просто бросить больше вычислительного аппаратного обеспечения на задачу. Но внутри и между сетями задержка начинает быстро складываться. Чтобы получить такое же количество, сделанное в данный момент времени, вы должны бросить больше энергии на проблему. Огромный объем данных делает пропускную способность собственным узким местом. Эта «тройная точка» - это то место, где церебра стремится сделать свой след.
Все изображения Андромеды любезно предоставлены церебсом.