AMD Supercompuster Exascale имеет сбой системы каждые несколько часов

Это факт жизни, согласно которому ваш компьютер работает в форме на вершине, требует постоянной бдительности. Теперь представьте себе, что вы пытаетесь сохранить суперкомпьютер, когда миллионы деталей работают гладко. Это задача Джастин Уитт, директор программы в Национальной лаборатории Oak Ridge (ORNL), в настоящее время имеет дело. В недавнем интервью он обсудил некоторые проблемы, которые лаборатория возникла с новым пограничным суперкомпьютером. Эта машина монстра является первым в мире компьютером Exascale. Он дебютировал в июне на первом месте в списке самых мощных компьютеров в мире. Он описал некоторые проблемы с прорезыванием зубов с Frontier, заявив, что в настоящее время он испытывает сбои системы каждые несколько часов.
Frontier строился в течение трех лет, по сообщению, стоимостью 600 миллионов долларов. Он работает на архитектуре HPE Cray EX235A с процессорами AMD EPYC 64C. Он включает в себя 74 шкафа с более чем 9 400 узлами на AMD, в общей сложности 606 208 сердечников процессора. Его 37 888 AMD Radeon Instinct Mi250x также дают ему 8 335 360 сердечников графических процессоров. Он использует более 90 миль кабеля, чтобы соединить все.
Несмотря на то, что поддержание такой системы звучит обременительно, это работа Уитта, и он говорит, что это было интересное путешествие. Он описал проблемы, с которыми сталкивается команда в интервью InsideHPC: «Мы работаем над проблемами аппаратного обеспечения и следим за тем, чтобы мы понимали (что они есть), потому что у вас будут неудачи в этом масштабе». Он суммировал ситуацию, сказав: «Среднее время между отказами в системе такого размера часы, это не дни».
Уитт отказался в подробности о том, какое оборудование испытывает проблемы. InsideHPC говорит, что ранее это была ткань HPE Slingshot, 64-портовый, высокоскоростный коммутатор, который соединяет лезвия внутри системы. Эти проблемы, по-видимому, были решены, так как система смогла запустить высокопроизводительный эталон Linpack. В настоящее время некоторые проблемы, по -видимому, связаны с ускорителями графических процессоров AMD. «Проблемы охватывают множество разных категорий, графические процессоры - это всего лишь один», - сказал Уитт. Он сказал, что проблема довольно равномерно распространяется среди различных оборудования Frontier. Кроме того, проблемы, по -видимому, возникают, когда компьютер выполняет чрезвычайно требовательные рабочие нагрузки, согласно отчету. Уитт говорит, что запуск эталона - это другая банка червей по сравнению с запущенными научными приложениями.
Несмотря на это, система не ожидается, что до января 2023 года не будет полностью работой для научных задач. Тем не менее, кажется, что команда выполняет свою работу. Уитт сказал, что уехал один день без неудачи, «был бы выдающимся». Затем он сказал, что цель работы с Uptime «все еще часы», которая, по -видимому, длиннее, чем текущая частота отказов. Хотя это звучит как сложная ситуация, у Frontier 60 миллионов деталей, поэтому неудивительно, что есть некоторые «икоты», по словам Уитта. Несмотря на эти проблемы и задержки, связанные с COVID-199, Уитт говорит, что компания по-прежнему находится на пути к дате развертывания, когда Frontier начнет свою фактическую работу по запуску пользовательских программ, а не только тесты.
Читать далее

Как работают кэши ЦП L1 и L2 и почему они являются неотъемлемой частью современных микросхем
Вам когда-нибудь было любопытно, как работает кеш L1 и L2? Мы рады, что вы спросили. Здесь мы глубоко погружаемся в структуру и природу одного из самых фундаментальных проектов и инноваций вычислительной техники.

Как Intel потеряла рынок мобильных устройств, часть 2: Рост и пренебрежение Atom
Во второй части мы исследуем конкретные решения, принятые Intel, появление и игнорирование Atom, а также то, почему передовых технологий компании было недостаточно для завоевания мобильного рынка.

MIT создает масштабируемый объектив без движущихся частей
Наука оптика на протяжении веков раскрывала масштаб и детали Вселенной. С правильным стеклом вы можете посмотреть на далекую галактику или на шевелящиеся жгутики одной бактерии. Но линзы должны фокусироваться - они должны двигаться. Инженеры Массачусетского технологического института разработали «металинзу», которая может изменить то, как мы строим камеры и телескопы.

Новый космический корабль, сейчас на орбите, будет демонстрационная очистка
В отличие от некоторых прошлых демонстраций, ELSA-D не предназначена для подметания всех этих небольших битов прошлых миссий. Скорее, астроразлагаемые надеются сделать систему ELSA частью будущих космических миссий.