AMD Supercompuster Exascale имеет сбой системы каждые несколько часов
Это факт жизни, согласно которому ваш компьютер работает в форме на вершине, требует постоянной бдительности. Теперь представьте себе, что вы пытаетесь сохранить суперкомпьютер, когда миллионы деталей работают гладко. Это задача Джастин Уитт, директор программы в Национальной лаборатории Oak Ridge (ORNL), в настоящее время имеет дело. В недавнем интервью он обсудил некоторые проблемы, которые лаборатория возникла с новым пограничным суперкомпьютером. Эта машина монстра является первым в мире компьютером Exascale. Он дебютировал в июне на первом месте в списке самых мощных компьютеров в мире. Он описал некоторые проблемы с прорезыванием зубов с Frontier, заявив, что в настоящее время он испытывает сбои системы каждые несколько часов.
Frontier строился в течение трех лет, по сообщению, стоимостью 600 миллионов долларов. Он работает на архитектуре HPE Cray EX235A с процессорами AMD EPYC 64C. Он включает в себя 74 шкафа с более чем 9 400 узлами на AMD, в общей сложности 606 208 сердечников процессора. Его 37 888 AMD Radeon Instinct Mi250x также дают ему 8 335 360 сердечников графических процессоров. Он использует более 90 миль кабеля, чтобы соединить все.
Несмотря на то, что поддержание такой системы звучит обременительно, это работа Уитта, и он говорит, что это было интересное путешествие. Он описал проблемы, с которыми сталкивается команда в интервью InsideHPC: «Мы работаем над проблемами аппаратного обеспечения и следим за тем, чтобы мы понимали (что они есть), потому что у вас будут неудачи в этом масштабе». Он суммировал ситуацию, сказав: «Среднее время между отказами в системе такого размера часы, это не дни».
Уитт отказался в подробности о том, какое оборудование испытывает проблемы. InsideHPC говорит, что ранее это была ткань HPE Slingshot, 64-портовый, высокоскоростный коммутатор, который соединяет лезвия внутри системы. Эти проблемы, по-видимому, были решены, так как система смогла запустить высокопроизводительный эталон Linpack. В настоящее время некоторые проблемы, по -видимому, связаны с ускорителями графических процессоров AMD. «Проблемы охватывают множество разных категорий, графические процессоры - это всего лишь один», - сказал Уитт. Он сказал, что проблема довольно равномерно распространяется среди различных оборудования Frontier. Кроме того, проблемы, по -видимому, возникают, когда компьютер выполняет чрезвычайно требовательные рабочие нагрузки, согласно отчету. Уитт говорит, что запуск эталона - это другая банка червей по сравнению с запущенными научными приложениями.
Несмотря на это, система не ожидается, что до января 2023 года не будет полностью работой для научных задач. Тем не менее, кажется, что команда выполняет свою работу. Уитт сказал, что уехал один день без неудачи, «был бы выдающимся». Затем он сказал, что цель работы с Uptime «все еще часы», которая, по -видимому, длиннее, чем текущая частота отказов. Хотя это звучит как сложная ситуация, у Frontier 60 миллионов деталей, поэтому неудивительно, что есть некоторые «икоты», по словам Уитта. Несмотря на эти проблемы и задержки, связанные с COVID-199, Уитт говорит, что компания по-прежнему находится на пути к дате развертывания, когда Frontier начнет свою фактическую работу по запуску пользовательских программ, а не только тесты.
Читать далее
Лучшие системы безопасности умного дома
Когда-то являвшиеся нишевым бизнесом с несколькими традиционными игроками и несколькими стартапами, системы домашней безопасности теперь являются основным полем битвы не только для охранных компаний, но и для нескольких интернет-гигантов. Мы собрали самые популярные варианты на 2020 год.
Посмотрите вверх: сегодня вечером вы можете увидеть все планеты в нашей солнечной системе
Вы, наверное, видели схемы Солнечной системы, на которых планеты расположены красивыми, упорядоченными линиями, но на самом деле они часто находятся по ту сторону Солнца от Земли. Мы переживаем период, когда все планеты видны. Просто нужно знать, где и когда смотреть.
Фрагмент метеорита указывает на пропавшую карликовую планету в ранней Солнечной системе
Каждый астероид, падающий на Землю, является потенциальным окном в истоки Солнечной системы, но ученые наткнулись на нечто довольно странное при изучении фрагмента астероида Альмахата Ситта.
Линус Торвальдс обвиняет Intel в уничтожении оперативной памяти ECC в потребительских системах
Intel лишила свои потребительские продукты поддержки ECC RAM более десяти лет назад, и Линус Торвальдс до сих пор недоволен этим.