Виробники процесора штовхають межі CMOS і починають платити за це

Виробники процесора штовхають межі CMOS і починають платити за це

CPUS майже ніколи не провалиться. З усіх компонентів у даному ПК процесор історично був одним з найменш ймовірно, що страждає відбою. Це ще не змінилося - але є тривожні докази, що свідчать про те, що як вузли технологічних вузлів, надійність стає жорсткістю для Гарантії AMD та Intel.

Дослідники Google опублікували документ, що описує те, що вони називають "ртутними" сердечниками. Меркугічні сердечники є сердечниками, які підлягають тому, що Google викликає "корумповані помилки виконання", або Cees. Одна критична складова CEES полягає в тому, що вони мовчать.

Ми очікуємо, що CPUS не вдається в деякому помітному способі, коли вони прораховують значення, незалежно від того, чи це призводить до перезавантаження ОС, аварія програми, повідомлення про помилку або спотворену продукцію. Що не відбувається в цих випадках. CEES є симптомами того, що Google викликає "мовчазні дані корупції", або здатність до даних, щоб стати пошкодженими під час написання, читання, або в спокої без негайно виявлення корупції.

Ця робота все ще на ранніх стадіях, а автори підкреслюють, що існує сильно, що вони не знають. Те, що вони зробили, побудована модель для того, що є невдалою CEE, як правило, виглядає так:

Виробники процесора штовхають межі CMOS і починають платити за це

Помилки, здається, не детерміністичні, і вони з'являються за змінними ставками. Неправильні сердечники не виконуються повторно і періодично. Проблема, як правило, погіршується з часом. Вони пишуть:

У нас є деякі докази того, що старіння є фактором. У багатокористувацькому процесорі, як правило, лише одна ядра не вдається, часто послідовно. CEES, як видається, є проблемою для промисловості, не специфічною для будь-якого постачальника, але швидкість не є однорідною в продуктах процесора.

Кажуть, що корупція, як кажуть, відрізняються від "багатьох порядків" через дефектні сердечники. Тип навантаження, частота, напруга та температура, можуть всі впливати, чи є ядро, що кидає CEE. Автори спостерігали за недорогими ставками "Про порядок декількох ядерних ядер на кілька тисяч машин". Майте на увазі, машина, швидше за все, має десь від восьми та 64 сердечників процесора, залежно від того, скільки років це.

Google має свідчення рочущих ядер, що порушують семантику блокування; корупція даних під час завантаження, магазину та векторних операцій; пошкодження даних під час збирання сміття; Перегортання такого ж положення в декількох струнах; і пошкодження держави ядра. Існує одна зауважена проблема, яка варто цитувати прямо:

Детерміністична AES неправильна обчислення, яка була "самостійною інвертуванням": шифрування та дешифрування на тому ж ядрі призвели до функції ідентичності, але дешифрування в іншому місці дало гібберс.

Ідея генерації коду, яка може бути розшифрована лише одним процесором на Землі, захоплюється від точки зору безпеки та страждання від операційного. Google не розкриває, як це стало відомо про цю проблему, але проблема, як це, безумовно, спровокує детальний аналіз основної причини.

Google все ще збирає дані з цієї проблеми. Компанія не вірить, що вона обов'язково виявила кожен вид CEE або визначив риси, які роблять певний чіп, швидше за все, розвиватиметься в майбутньому. У тексті є кілька посилань на те, що ця проблема може бути запущена, коли оптимізація програми викликає нові інструкції, які потрібно використовувати частіше.

Google не вказується, якщо оптимізація для SIMD-інструкцій, як AVX-512 або AVX2, була визначена як причиною цих проблем, або якщо воно було посилання на інші інструкції. Але це підтверджує, що кодекс змінює, що підкреслює різні інструкції, можуть викликати проблему, коли раніше не було відомо.

Ми попередили, що це станеться

Це не особливо дивно розвиток. Чим більше транзисторів упаковані на чіп, тим більший шанс деяких з цих транзисторів дефектний. Сучасні архітектори чіп дублюють деякі функції з дизайном, за припущенням, що деякі транзистори не будуть працювати належним чином. Це споживає дуже мало додаткового простору вбивці і збільшує врожайність.

Ідея про те, що процесор стане менш надійним, оскільки щільність транзистора збільшилася, - це тема, як Боб Коулвелл, свинцевий дизайнер на Intel 1995 Pentium Pro, говорив близько 20 років тому. Це перша доповідь, яку я коли-небудь бачив у той час, припускаючи, що CPUS з обох AMD, так і Intel тепер може постраждати від різних вичербних помилок, які в іншому випадку можуть бути непоміченими в той момент, і що проблема є широким.

Цей інцидент має деякі подібності до старих помилок Pentium Fdiv, але тільки номінально. В більшості випадків у більшості випадків мовчать FDIV, але виникла проблема, постраждала від кожного Pentium Intel, і це негайно вплинуло на них. За словами Google, деякі чіпи не показують докази недоліків, поки вони не будуть у певному віці. Google активно працює над написанням програмного забезпечення для виявлення CEES, і він викликає як Intel, так і AMD, щоб ефективно випробувати CPUS, перш ніж дотримуватися їх.

Кредит: Laura Ockel / Unsplash, PCMAG