SuperComputer AMD Exascale має збій системи кожні кілька годин

SuperComputer AMD Exascale має збій системи кожні кілька годин

Це факт життя, який підтримує ваш ПК у формі вершини, вимагає постійної пильності. Тепер уявіть собі, що намагаєтесь зберегти суперкомп'ютер з мільйонами деталей, що працюють безперебійно. Це завдання Джастін Вітт, директор програми в Національній лабораторії Oak Ridge (ORNL), зараз має справу. У недавньому інтерв'ю він обговорив деякі питання, які мала лабораторія зі своїм новим суперкомп'ютером Frontier. Цей монстр - це перший у світі комп'ютер Exascale. Він дебютував у червні в місці №1 у списку Top500 найпотужніших комп'ютерів у світі. Він описав деякі проблеми з прорізуванням зубів з Frontier, заявивши, що в даний час переживають збої в систему кожні кілька годин.

Frontier працював протягом трьох років, зареєстрована вартість 600 мільйонів доларів. Він працює на архітектурі HPE Cray Ex235A з процесорами AMD EPYC 64C. У ньому розміщені 74 шафи з більш ніж 9 400 вузлами, що працюють на AMD, загалом 606 208 ядер процесора. Його 37 888 AMD Radeon Instinct MI250X GPU також дають йому 8 335 360 ядер GPU. Він використовує понад 90 миль кабелів для з'єднання всього.

Хоча підтримка такої системи звучить обтяжливо, це робота Вітта, і він каже, що це була цікава подорож досі. Він описав проблеми, з якими команда стикається в інтерв'ю InsideHPC: "Ми працюємо над питаннями в галузі обладнання та переконуємось, що ми розуміємо (що вони є), тому що у вас будуть невдачі в такому масштабі". Він узагальнив ситуацію, сказавши: "Середній час між невдачею в системі такого розміру - години, це не дні".

Уітт відмовився розглянути деталі щодо того, які апаратні засоби виникають проблеми. InsideHPC каже, що раніше це була тканина HPE Slingshot, 64-портове високошвидкісне перемикач, що з'єднує лопатки всередині системи. Ці проблеми, очевидно, були вирішені, оскільки система змогла запустити високопродуктивний еталон Linpack. В даний час деякі проблеми, очевидно, пов'язані з прискорювачами GPU інстинктів AMD. "Проблеми охоплюють багато різних категорій, графічні процесори - це лише одна", - сказав Вітт. Він сказав, що неприємності досить рівномірно розповсюджені серед різних обладнання Frontier. Крім того, проблеми, очевидно, виникають, коли комп'ютер виконує надзвичайно вимогливі навантаження, згідно з повідомленням. Whitt каже, що запуск орієнтиру - це інша банка глистів порівняно з запущеними науковими програмами.

Незважаючи на те, що система, як очікується, не буде повністю працювати для наукових завдань до січня 2023 року. Це означає, що Уітт і його команда все ще мають певний час для усунення несправностей. І все -таки, схоже, у команді вирізано свою роботу. Вітт сказав, що пройти один день без невдачі, "буде видатним". Потім він сказав, що мета на час роботи "ще години", що, мабуть, довше, ніж його поточний рівень відмови. Хоча це звучить як складна ситуація, Frontier має 60 мільйонів частин, тому не дивно, що є «гикавки», за словами Вітта. Незважаючи на ці проблеми та затримки ланцюга поставок, пов'язаних з Covid-19, Whitt каже, що компанія все ще перебуває на шляху до дати розгортання, коли Frontier розпочне свою фактичну роботу з запуску програм користувачів, а не лише орієнтирів.

Читати далі

Найкращі системи розумного домашнього захисту
Найкращі системи розумного домашнього захисту

Колись нішевий бізнес з кількома традиційними гравцями та деякими стартапами, системи домашньої безпеки зараз є головним полем битви не лише охоронних компаній, але й кількох інтернет-гігантів. Ми підбираємо основні моменти найбільш популярних варіантів на 2020 рік.

Шукайте: Ви можете побачити всі планети в нашій Сонячній системі сьогодні ввечері
Шукайте: Ви можете побачити всі планети в нашій Сонячній системі сьогодні ввечері

Ви, напевно, бачили схеми Сонячної системи, які розміщують планети в гарні впорядковані лінії, але правда полягає в тому, що вони часто знаходяться з іншого боку Сонця від Землі. Ми випадково переживаємо період, протягом якого всі планети видно. Ви просто повинні знати, де і коли шукати.

Фрагмент метеорита вказує на зниклу планету карликів у ранній Сонячній системі
Фрагмент метеорита вказує на зниклу планету карликів у ранній Сонячній системі

Кожен астероїд, який падає на Землю, є потенційним вікном у витоки Сонячної системи, але вчені натрапили на щось досить дивне, вивчаючи фрагмент астероїда Альмахата Сітта.

Лінус Торвальдс звинувачує Intel у вбивстві пам'яті ECC в споживчих системах
Лінус Торвальдс звинувачує Intel у вбивстві пам'яті ECC в споживчих системах

Більше десяти років тому Intel позбавила підтримки оперативної пам'яті ECC своїх споживчих продуктів, і Лінус Торвальдс досі цим не задоволений.