SuperComputer AMD Exascale має збій системи кожні кілька годин

SuperComputer AMD Exascale має збій системи кожні кілька годин

Це факт життя, який підтримує ваш ПК у формі вершини, вимагає постійної пильності. Тепер уявіть собі, що намагаєтесь зберегти суперкомп'ютер з мільйонами деталей, що працюють безперебійно. Це завдання Джастін Вітт, директор програми в Національній лабораторії Oak Ridge (ORNL), зараз має справу. У недавньому інтерв'ю він обговорив деякі питання, які мала лабораторія зі своїм новим суперкомп'ютером Frontier. Цей монстр - це перший у світі комп'ютер Exascale. Він дебютував у червні в місці №1 у списку Top500 найпотужніших комп'ютерів у світі. Він описав деякі проблеми з прорізуванням зубів з Frontier, заявивши, що в даний час переживають збої в систему кожні кілька годин.

Frontier працював протягом трьох років, зареєстрована вартість 600 мільйонів доларів. Він працює на архітектурі HPE Cray Ex235A з процесорами AMD EPYC 64C. У ньому розміщені 74 шафи з більш ніж 9 400 вузлами, що працюють на AMD, загалом 606 208 ядер процесора. Його 37 888 AMD Radeon Instinct MI250X GPU також дають йому 8 335 360 ядер GPU. Він використовує понад 90 миль кабелів для з'єднання всього.

Хоча підтримка такої системи звучить обтяжливо, це робота Вітта, і він каже, що це була цікава подорож досі. Він описав проблеми, з якими команда стикається в інтерв'ю InsideHPC: "Ми працюємо над питаннями в галузі обладнання та переконуємось, що ми розуміємо (що вони є), тому що у вас будуть невдачі в такому масштабі". Він узагальнив ситуацію, сказавши: "Середній час між невдачею в системі такого розміру - години, це не дні".

Уітт відмовився розглянути деталі щодо того, які апаратні засоби виникають проблеми. InsideHPC каже, що раніше це була тканина HPE Slingshot, 64-портове високошвидкісне перемикач, що з'єднує лопатки всередині системи. Ці проблеми, очевидно, були вирішені, оскільки система змогла запустити високопродуктивний еталон Linpack. В даний час деякі проблеми, очевидно, пов'язані з прискорювачами GPU інстинктів AMD. "Проблеми охоплюють багато різних категорій, графічні процесори - це лише одна", - сказав Вітт. Він сказав, що неприємності досить рівномірно розповсюджені серед різних обладнання Frontier. Крім того, проблеми, очевидно, виникають, коли комп'ютер виконує надзвичайно вимогливі навантаження, згідно з повідомленням. Whitt каже, що запуск орієнтиру - це інша банка глистів порівняно з запущеними науковими програмами.

Незважаючи на те, що система, як очікується, не буде повністю працювати для наукових завдань до січня 2023 року. Це означає, що Уітт і його команда все ще мають певний час для усунення несправностей. І все -таки, схоже, у команді вирізано свою роботу. Вітт сказав, що пройти один день без невдачі, "буде видатним". Потім він сказав, що мета на час роботи "ще години", що, мабуть, довше, ніж його поточний рівень відмови. Хоча це звучить як складна ситуація, Frontier має 60 мільйонів частин, тому не дивно, що є «гикавки», за словами Вітта. Незважаючи на ці проблеми та затримки ланцюга поставок, пов'язаних з Covid-19, Whitt каже, що компанія все ще перебуває на шляху до дати розгортання, коли Frontier розпочне свою фактичну роботу з запуску програм користувачів, а не лише орієнтирів.

Читати далі

Nvidia Tesla, AMD Epyc to Power New Supercomputer Berkeley
Nvidia Tesla, AMD Epyc to Power New Supercomputer Berkeley

Nvidia і AMD є великими переможцями в новому суперкомп'ютерному анонсі, що поставить Epyc та Tesla кремнію в останню систему Shasta Cray.