Производители ЦП выдвигают границы CMOS и начинают платить за него
Процессоры почти никогда не терпят неудачу. Из всех компонентов на данном ПК ЦП исторически был одним из наименее вероятных стран отказа. Это еще не изменилось - но есть тревожные доказательства, предполагающие, что поскольку узлы процесса сокращаются, надежность становится более жесткой для AMD и Intel для гарантии.
Исследователи Google опубликовали бумагу, описывающую то, что они называют «Mercurial» сердечниками. Mercurial Cores - это сердечники, которые подлежат тому, что Google вызывает «поврежденные ошибки выполнения» или CEES. Одним из критических компонентов CEES является то, что они молчат.
Мы ожидаем, что процессоры потерпят неудачу в течение некоторого заметного способа, когда они просматривают значение, что приводит к перезагрузке ОС, сбой приложений, сообщение об ошибке или искаженном выходе. Это не происходит в этих случаях. CEE являются симптомами того, что Google вызывает «повреждение тихих данных», или возможность данных для повреждения, когда написано, читать, или в покое без немедленного обнаружения коррупции.
Эта работа все еще на ранних стадиях, и авторы подчеркивают, что там много не знают. То, что они сделали, построена модель для того, как обычно выглядит неудача CEE:
Отказы, кажется, не детерминированы, и они появляются при переменной скорости. Неисправные ядра проваливаются неоднократно и периодически. Проблема имеет тенденцию ухудшаться со временем. Они пишут:
У нас есть некоторые доказательства того, что старение является фактором. В многоквартиренном процессоре, как правило, один сердечник терпит неудачу, часто последовательно. CEE, кажется, отраслевая широкая проблема, не специфичная для любого поставщика, но скорость не является равномерной по всей продукции CPU.
Говорят, что ставки коррупции отличаются от «множества порядков на неисправности. Тип рабочего нагрузки, частота, напряжение и температуру могут влиять на то, бросает ли ядро CEE. Авторы наблюдали уровень отказов «О порядке нескольких мерюровных ядер на несколько тысяч машин». Имейте в виду, машина, скорее всего, имеет где-то от восьми и 64 процессорных ядер, в зависимости от того, сколько это лет.
Google имеет доказательства сердечников Mercurial, нарушая замку семантику; повреждение данных во время нагрузки, хранения и операций вектор; повреждение данных во время сбора мусора хранения; переворачивая одно и то же положение бита в нескольких строках; и испортить состояние ядра. Стоять одну наблюдаемую проблему напрямую:
Детерминированные невероятные вычисления AES, которые были «самостоятельно инвертирующими»: шифрование и дешифрование на одном ядре давали функцию идентичности, но дешифрование в других странах дало гибберскому языку.
Идея генерации кода, которая может быть расшифрована только одним процессором на Земле, очаровывает с точки зрения безопасности и ужасающуюся от операционного. Google не раскрывает, как он осознал эту проблему, но такая проблема, безусловно, провоцирует подробный анализ основной причины.
Google все еще собирает данные об этой проблеме. Компания не считает, что она обязательно обнаружила все виды CEE или определила черт, которые составляют определенный чип, скорее всего, разрабатывают один в будущем. В тексте есть несколько ссылок в идею, что эта проблема может быть вызвана, когда оптимизация приложений вызывает использование новых инструкций чаще.
Google не указывает, если оптимизирует наборы инструкций SIMD, таких как AVX-512 или AVX2, был идентифицирован как причина этих проблем, или если она ссылалась на другие инструкции. Но это подтверждает, что изменения кода, которые подчеркивают разные инструкции, могут вызвать проблему, где не было ранее не было существовать.
Мы были предупреждены это произойдет
Это не особенно удивительное развитие. Чем больше транзисторов упакованы на чип, тем больше вероятность того, что некоторые из этих транзисторов неисправен. Современные чиповые архитекторы дублируют некоторые функции с дизайном, под предположением, что некоторые транзисторы не будут работать должным образом. Это потребляет очень мало дополнительного пространства для умирания и увеличивает выход.
Идея о том, что процессоры станут менее надежными, поскольку плотность транзистора увеличилась, является темой, таких как BOB Colwell, ведущий дизайнер на Intel 1995 года Pentium Pro, говорил о 20 годах назад. Это первый отчет, который я когда-либо видел в том времени, предполагая, что процессоры как у AMD, так и Intel теперь могут страдать от различных тихих ошибок, которые в противном случае могут пойти незамеченными в данный момент, и что проблема широкая.
Этот инцидент имеет несколько сходств с старой Bug Pentium FDIV, но только номинально. Попыток FDIV молчал в большинстве случаев, но проблема пострадала от каждого построения Pentium Intel, и она не повлияла на них немедленно. Согласно Google, некоторые чипы не показывают доказательств недостатков, пока они не в определенном возрасте. Google активно работает над написанием программного обеспечения для обнаружения CEE, и он вызывает как Intel, так и AMD для более эффективного тестирования процессоров, прежде чем доставить их.
Кредит: Laura Ockel / Unsplash, PCMAG
Читать далее
Новый иск выдвигает антимонопольное заключение между производителями DRAM
Индустрия DRAM снова обвиняется в фиксации цен и сговоре - и учитывая, как цены DRAM вели себя последние два года, это не сумасшедшее обвинение.