AMD Supercompuster Exascale имеет сбой системы каждые несколько часов
Это факт жизни, согласно которому ваш компьютер работает в форме на вершине, требует постоянной бдительности. Теперь представьте себе, что вы пытаетесь сохранить суперкомпьютер, когда миллионы деталей работают гладко. Это задача Джастин Уитт, директор программы в Национальной лаборатории Oak Ridge (ORNL), в настоящее время имеет дело. В недавнем интервью он обсудил некоторые проблемы, которые лаборатория возникла с новым пограничным суперкомпьютером. Эта машина монстра является первым в мире компьютером Exascale. Он дебютировал в июне на первом месте в списке самых мощных компьютеров в мире. Он описал некоторые проблемы с прорезыванием зубов с Frontier, заявив, что в настоящее время он испытывает сбои системы каждые несколько часов.
Frontier строился в течение трех лет, по сообщению, стоимостью 600 миллионов долларов. Он работает на архитектуре HPE Cray EX235A с процессорами AMD EPYC 64C. Он включает в себя 74 шкафа с более чем 9 400 узлами на AMD, в общей сложности 606 208 сердечников процессора. Его 37 888 AMD Radeon Instinct Mi250x также дают ему 8 335 360 сердечников графических процессоров. Он использует более 90 миль кабеля, чтобы соединить все.
Несмотря на то, что поддержание такой системы звучит обременительно, это работа Уитта, и он говорит, что это было интересное путешествие. Он описал проблемы, с которыми сталкивается команда в интервью InsideHPC: «Мы работаем над проблемами аппаратного обеспечения и следим за тем, чтобы мы понимали (что они есть), потому что у вас будут неудачи в этом масштабе». Он суммировал ситуацию, сказав: «Среднее время между отказами в системе такого размера часы, это не дни».
Уитт отказался в подробности о том, какое оборудование испытывает проблемы. InsideHPC говорит, что ранее это была ткань HPE Slingshot, 64-портовый, высокоскоростный коммутатор, который соединяет лезвия внутри системы. Эти проблемы, по-видимому, были решены, так как система смогла запустить высокопроизводительный эталон Linpack. В настоящее время некоторые проблемы, по -видимому, связаны с ускорителями графических процессоров AMD. «Проблемы охватывают множество разных категорий, графические процессоры - это всего лишь один», - сказал Уитт. Он сказал, что проблема довольно равномерно распространяется среди различных оборудования Frontier. Кроме того, проблемы, по -видимому, возникают, когда компьютер выполняет чрезвычайно требовательные рабочие нагрузки, согласно отчету. Уитт говорит, что запуск эталона - это другая банка червей по сравнению с запущенными научными приложениями.
Несмотря на это, система не ожидается, что до января 2023 года не будет полностью работой для научных задач. Тем не менее, кажется, что команда выполняет свою работу. Уитт сказал, что уехал один день без неудачи, «был бы выдающимся». Затем он сказал, что цель работы с Uptime «все еще часы», которая, по -видимому, длиннее, чем текущая частота отказов. Хотя это звучит как сложная ситуация, у Frontier 60 миллионов деталей, поэтому неудивительно, что есть некоторые «икоты», по словам Уитта. Несмотря на эти проблемы и задержки, связанные с COVID-199, Уитт говорит, что компания по-прежнему находится на пути к дате развертывания, когда Frontier начнет свою фактическую работу по запуску пользовательских программ, а не только тесты.
Читать далее
Как Windows использует несколько ядер ЦП?
В наши дни мы воспринимаем многоядерность как должное, но как вообще процессор и операционная система взаимодействуют друг с другом?
Apple впервые за несколько лет обогнала Samsung по продажам телефонов в мире
Рынок смартфонов в целом сократился в 2020 году, но Apple удалось отобрать у Samsung в четвертом квартале впервые с 2016 года. Samsung оставалась крупнейшей компанией-производителем смартфонов на весь 2020 год.
Bloomberg: M1x MacBook Pro может запустить в «следующих нескольких неделях»
По словам Марка Bloomberg Gurman, новые MacBooks (которые содержат новейший CPU Apple M1x), должен ударить полки в течение следующих нескольких недель.
TSMC Executive говорит, что нехватка чипов, чтобы продлить еще несколько лет
Там просто не хватает потрясающих способностей для удовлетворения спроса, сейчас и в далеком будущем.