AMD Supercompuster Exascale имеет сбой системы каждые несколько часов
Это факт жизни, согласно которому ваш компьютер работает в форме на вершине, требует постоянной бдительности. Теперь представьте себе, что вы пытаетесь сохранить суперкомпьютер, когда миллионы деталей работают гладко. Это задача Джастин Уитт, директор программы в Национальной лаборатории Oak Ridge (ORNL), в настоящее время имеет дело. В недавнем интервью он обсудил некоторые проблемы, которые лаборатория возникла с новым пограничным суперкомпьютером. Эта машина монстра является первым в мире компьютером Exascale. Он дебютировал в июне на первом месте в списке самых мощных компьютеров в мире. Он описал некоторые проблемы с прорезыванием зубов с Frontier, заявив, что в настоящее время он испытывает сбои системы каждые несколько часов.
Frontier строился в течение трех лет, по сообщению, стоимостью 600 миллионов долларов. Он работает на архитектуре HPE Cray EX235A с процессорами AMD EPYC 64C. Он включает в себя 74 шкафа с более чем 9 400 узлами на AMD, в общей сложности 606 208 сердечников процессора. Его 37 888 AMD Radeon Instinct Mi250x также дают ему 8 335 360 сердечников графических процессоров. Он использует более 90 миль кабеля, чтобы соединить все.
Несмотря на то, что поддержание такой системы звучит обременительно, это работа Уитта, и он говорит, что это было интересное путешествие. Он описал проблемы, с которыми сталкивается команда в интервью InsideHPC: «Мы работаем над проблемами аппаратного обеспечения и следим за тем, чтобы мы понимали (что они есть), потому что у вас будут неудачи в этом масштабе». Он суммировал ситуацию, сказав: «Среднее время между отказами в системе такого размера часы, это не дни».
Уитт отказался в подробности о том, какое оборудование испытывает проблемы. InsideHPC говорит, что ранее это была ткань HPE Slingshot, 64-портовый, высокоскоростный коммутатор, который соединяет лезвия внутри системы. Эти проблемы, по-видимому, были решены, так как система смогла запустить высокопроизводительный эталон Linpack. В настоящее время некоторые проблемы, по -видимому, связаны с ускорителями графических процессоров AMD. «Проблемы охватывают множество разных категорий, графические процессоры - это всего лишь один», - сказал Уитт. Он сказал, что проблема довольно равномерно распространяется среди различных оборудования Frontier. Кроме того, проблемы, по -видимому, возникают, когда компьютер выполняет чрезвычайно требовательные рабочие нагрузки, согласно отчету. Уитт говорит, что запуск эталона - это другая банка червей по сравнению с запущенными научными приложениями.
Несмотря на это, система не ожидается, что до января 2023 года не будет полностью работой для научных задач. Тем не менее, кажется, что команда выполняет свою работу. Уитт сказал, что уехал один день без неудачи, «был бы выдающимся». Затем он сказал, что цель работы с Uptime «все еще часы», которая, по -видимому, длиннее, чем текущая частота отказов. Хотя это звучит как сложная ситуация, у Frontier 60 миллионов деталей, поэтому неудивительно, что есть некоторые «икоты», по словам Уитта. Несмотря на эти проблемы и задержки, связанные с COVID-199, Уитт говорит, что компания по-прежнему находится на пути к дате развертывания, когда Frontier начнет свою фактическую работу по запуску пользовательских программ, а не только тесты.
Читать далее
Владельцы Google Pixel Slate сообщают о сбое флеш-хранилища
Форумы поддержки продуктов Google переполнены рассерженными владельцами Pixel Slate, которые говорят, что в их устройствах часто возникают серьезные ошибки хранения.
Tesla приказала отозвать более 150 тысяч автомобилей для устранения сбоев памяти
Tesla попросили - или «попросили» - отозвать около 159 000 автомобилей для устранения проблемы с памятью NAND, которая в конечном итоге приведет к сбоям на каждом затронутом автомобиле.
Новое обновление Windows 10 вызывает сбои в работе синего экрана, что никого не удивляет
Новое обновление безопасности вызывает синие экраны на компьютерах, когда они пытаются использовать определенные марки принтеров. Как будто принтеры и обновления Windows уже недостаточно раздражали, теперь они объединили усилия.
NASA начинает сборку космического корабля для изучения огромного металлического астероида
В следующем году этот кусок оборудования будет ездить на ракете Spacex на орбиту, а затем он находится в ремене астероида, чтобы изучить его тезку, богатую металлом астероида 16.