AMD Supercompuster Exascale имеет сбой системы каждые несколько часов

AMD Supercompuster Exascale имеет сбой системы каждые несколько часов

Это факт жизни, согласно которому ваш компьютер работает в форме на вершине, требует постоянной бдительности. Теперь представьте себе, что вы пытаетесь сохранить суперкомпьютер, когда миллионы деталей работают гладко. Это задача Джастин Уитт, директор программы в Национальной лаборатории Oak Ridge (ORNL), в настоящее время имеет дело. В недавнем интервью он обсудил некоторые проблемы, которые лаборатория возникла с новым пограничным суперкомпьютером. Эта машина монстра является первым в мире компьютером Exascale. Он дебютировал в июне на первом месте в списке самых мощных компьютеров в мире. Он описал некоторые проблемы с прорезыванием зубов с Frontier, заявив, что в настоящее время он испытывает сбои системы каждые несколько часов.

Frontier строился в течение трех лет, по сообщению, стоимостью 600 миллионов долларов. Он работает на архитектуре HPE Cray EX235A с процессорами AMD EPYC 64C. Он включает в себя 74 шкафа с более чем 9 400 узлами на AMD, в общей сложности 606 208 сердечников процессора. Его 37 888 AMD Radeon Instinct Mi250x также дают ему 8 335 360 сердечников графических процессоров. Он использует более 90 миль кабеля, чтобы соединить все.

Несмотря на то, что поддержание такой системы звучит обременительно, это работа Уитта, и он говорит, что это было интересное путешествие. Он описал проблемы, с которыми сталкивается команда в интервью InsideHPC: «Мы работаем над проблемами аппаратного обеспечения и следим за тем, чтобы мы понимали (что они есть), потому что у вас будут неудачи в этом масштабе». Он суммировал ситуацию, сказав: «Среднее время между отказами в системе такого размера часы, это не дни».

Уитт отказался в подробности о том, какое оборудование испытывает проблемы. InsideHPC говорит, что ранее это была ткань HPE Slingshot, 64-портовый, высокоскоростный коммутатор, который соединяет лезвия внутри системы. Эти проблемы, по-видимому, были решены, так как система смогла запустить высокопроизводительный эталон Linpack. В настоящее время некоторые проблемы, по -видимому, связаны с ускорителями графических процессоров AMD. «Проблемы охватывают множество разных категорий, графические процессоры - это всего лишь один», - сказал Уитт. Он сказал, что проблема довольно равномерно распространяется среди различных оборудования Frontier. Кроме того, проблемы, по -видимому, возникают, когда компьютер выполняет чрезвычайно требовательные рабочие нагрузки, согласно отчету. Уитт говорит, что запуск эталона - это другая банка червей по сравнению с запущенными научными приложениями.

Несмотря на это, система не ожидается, что до января 2023 года не будет полностью работой для научных задач. Тем не менее, кажется, что команда выполняет свою работу. Уитт сказал, что уехал один день без неудачи, «был бы выдающимся». Затем он сказал, что цель работы с Uptime «все еще часы», которая, по -видимому, длиннее, чем текущая частота отказов. Хотя это звучит как сложная ситуация, у Frontier 60 миллионов деталей, поэтому неудивительно, что есть некоторые «икоты», по словам Уитта. Несмотря на эти проблемы и задержки, связанные с COVID-199, Уитт говорит, что компания по-прежнему находится на пути к дате развертывания, когда Frontier начнет свою фактическую работу по запуску пользовательских программ, а не только тесты.

Читать далее

AMD Supercompuster-первый, кто преодолевает барьер Exascale
AMD Supercompuster-первый, кто преодолевает барьер Exascale

Вставьте обязательный "может ли он запустить Crysis?" шутка здесь.