SuperComputer AMD Exascale має збій системи кожні кілька годин
Це факт життя, який підтримує ваш ПК у формі вершини, вимагає постійної пильності. Тепер уявіть собі, що намагаєтесь зберегти суперкомп'ютер з мільйонами деталей, що працюють безперебійно. Це завдання Джастін Вітт, директор програми в Національній лабораторії Oak Ridge (ORNL), зараз має справу. У недавньому інтерв'ю він обговорив деякі питання, які мала лабораторія зі своїм новим суперкомп'ютером Frontier. Цей монстр - це перший у світі комп'ютер Exascale. Він дебютував у червні в місці №1 у списку Top500 найпотужніших комп'ютерів у світі. Він описав деякі проблеми з прорізуванням зубів з Frontier, заявивши, що в даний час переживають збої в систему кожні кілька годин.
Frontier працював протягом трьох років, зареєстрована вартість 600 мільйонів доларів. Він працює на архітектурі HPE Cray Ex235A з процесорами AMD EPYC 64C. У ньому розміщені 74 шафи з більш ніж 9 400 вузлами, що працюють на AMD, загалом 606 208 ядер процесора. Його 37 888 AMD Radeon Instinct MI250X GPU також дають йому 8 335 360 ядер GPU. Він використовує понад 90 миль кабелів для з'єднання всього.
Хоча підтримка такої системи звучить обтяжливо, це робота Вітта, і він каже, що це була цікава подорож досі. Він описав проблеми, з якими команда стикається в інтерв'ю InsideHPC: "Ми працюємо над питаннями в галузі обладнання та переконуємось, що ми розуміємо (що вони є), тому що у вас будуть невдачі в такому масштабі". Він узагальнив ситуацію, сказавши: "Середній час між невдачею в системі такого розміру - години, це не дні".
Уітт відмовився розглянути деталі щодо того, які апаратні засоби виникають проблеми. InsideHPC каже, що раніше це була тканина HPE Slingshot, 64-портове високошвидкісне перемикач, що з'єднує лопатки всередині системи. Ці проблеми, очевидно, були вирішені, оскільки система змогла запустити високопродуктивний еталон Linpack. В даний час деякі проблеми, очевидно, пов'язані з прискорювачами GPU інстинктів AMD. "Проблеми охоплюють багато різних категорій, графічні процесори - це лише одна", - сказав Вітт. Він сказав, що неприємності досить рівномірно розповсюджені серед різних обладнання Frontier. Крім того, проблеми, очевидно, виникають, коли комп'ютер виконує надзвичайно вимогливі навантаження, згідно з повідомленням. Whitt каже, що запуск орієнтиру - це інша банка глистів порівняно з запущеними науковими програмами.
Незважаючи на те, що система, як очікується, не буде повністю працювати для наукових завдань до січня 2023 року. Це означає, що Уітт і його команда все ще мають певний час для усунення несправностей. І все -таки, схоже, у команді вирізано свою роботу. Вітт сказав, що пройти один день без невдачі, "буде видатним". Потім він сказав, що мета на час роботи "ще години", що, мабуть, довше, ніж його поточний рівень відмови. Хоча це звучить як складна ситуація, Frontier має 60 мільйонів частин, тому не дивно, що є «гикавки», за словами Вітта. Незважаючи на ці проблеми та затримки ланцюга поставок, пов'язаних з Covid-19, Whitt каже, що компанія все ще перебуває на шляху до дати розгортання, коли Frontier розпочне свою фактичну роботу з запуску програм користувачів, а не лише орієнтирів.
Читати далі
Результати порівняльних показників показують, що Apple M1 перемагає кожен MacBook Pro на базі Intel
Новий SoC від M1 від Apple може перемогти кожну окрему систему Intel, яку він продає, принаймні за один ранній результат. Ми копаємось у цифрах та ймовірній конкурентній ситуації.
Кожен дебют процесора, графічного процесора та консолі Це падіння фактично було запуском паперу
Кожен запуск процесора, графічного процесора та консолі з середини літа фактично (якщо не технічно) був запуском паперу для більшості споживачів, які бажали обладнання.
Незважаючи на звіти, Sony, ймовірно, не втрачає грошей на кожній PlayStation 5
У цьому році Sony повідомила про сильний загальний квартал, коли було поставлено 4,5 мільйони консолей PlayStation 5. Незважаючи на деякі повідомлення, компанія навряд чи буде втрачати гроші на кожному проданому PS5.
Ви можете побачити піксель 6 з кожного кута нової витоку
Камера Великого Хонкіна є тут, щоб залишитися, це здавалося б.