Для процессора следующего поколения, не движущие данные - новый 1 ГГц

Рост в шести ядных и восьми ядро процессора действительно было что-то, что посмотреть. В июле 2011 года 43,3 процента геймеров имели четырехъядерный процессор в соответствии с опросом парового оборудования, а только 0,08 процента рынка имели восемь ядерных чипов, а 1,36 процента имели шестиъядерный процессор. В июле 2017 года 51,99 процента геймеров имели четырехъядерные процессоры, 1,48 процента имели шестиъядерный чип, а на 0,49 процента геймеров имели восьмизерный чип. Сегодня 31,11 процента геймеров имеют шестиъядерные чипы, а 13,6 процента имеют восемь ядер. Это рост популярности 21x и 27x в течение всего четырех лет, а возобновленный конкурс между Intel и AMD - это поблагодарить за это.

К сожалению, у подсчета наращивания ядра также имеют свои пределы. Существует уменьшающаяся предельная доходность от добавления новых ядер CPU в большинстве случаев, и рынок все еще переваривает счетчик основного количества увеличения 2017-2019 годов. Литография больше не дает улучшения производительности, что он когда-то сделал; Общее совокупное улучшение производительности и энергопотребления и энергопотребления о том, что TSMC проецирует из 7 нм -> 5 нм -> 3 нм, примерно равен улучшению, полученному, полученному от сокращения с 16 нм -> 7 нм. Intel и другие полупроводниковые фирмы продолжают исследовать материальные инженерные улучшения, улучшения упаковки, а также новые методы межсоединений, которые являются более энергоэффективными или исполнительными, чем то, что у нас сегодня, но один из самых эффективных способов повышения энергоэффективности в современной системе, это Оказывается, - это прекратить движущиеся данные по всему месту.

После десятилетий оптимизации электроэнергии и постоянно совершенствующейся литографии общее количество потребляемой электроэнергии для выполнения работы на одном бит данных, составляет примерно 1/3 стоимость извлечения его от памяти. Согласно данным, опубликованным Раммбусом, 62,6 процента мощности расходуется на движение по данным и на 37,4 процента на вычислении.

Один из способов решить эту проблему с вычислительным хранением. Идея простая: вместо того, чтобы лечить CPU как, ну, центральное обрабатывающее устройство, вычислительное хранилище встраивает возможность обработки непосредственно в сам устройство хранения. Это более правдоподобно с сегодняшнему твердодородными приводами, чем с более старыми жесткими дисками; Нанд флэш-контроллеры уже делают справедливую степень управления данными под капотом. Недавняя статья осматривала потенциальную экономию энергосбережения беговых приложений, по сравнению с традиционно построенным полностью функциональным прототипом. Система выставила увеличение производительности 2.2x и снижение энергопотребления на 54 процента в энергопотреблении «для работы многомерных тестов FFT на различных наборах данных».

Идея обработки данных на месте имеет приложения вне хранения; Samsung анонсировал процессор в память ранее в этом году, который сочетает в себе HBM2 с массивом регистров FP16, которые могут выполнять вычисления напрямую, а не на CPU. В этом случае Samsung утверждал, что улучшение производительности 2x с снижением мощности 70%.

Эти технологии находятся в их младенчестве - мы, скорее всего, годы вдали от основных приложений - но они иллюстрируют, как инженеры могут продолжать улучшать производительность системы, даже как масштабирование литографии. Полное преимущество этих идей потребует переосмысления взаимосвязи между различными компонентами внутри компьютера или внутри SOC.

Из центральной обработки до «ускорителя последнего курорта»

Я готов поспорить, что все мы, в какой-то момент, получили диаграмму, которая выглядит немного так:

Компьютеры организованы вокруг идеи, что многие, если на CPU нет большинства общего вычисления задач, и что ЦП служит своего рода-арбитра в отношении потока данных через систему. Это было не всегда так. В конце 1990-х годов любой с высокопроизводительным массивом хранения использовал RAID-карту для обработки ее. Начиная с начала 2000-х годов, процессоры достаточно мощные для производителей чипсетов материнской платы, такие как через интеграцию поддержки программного обеспечения RAID-массивов в их югобиджи. Другие компании, такими же, как AMD, Intel, NVIDIA и SIS сделали то же самое, что и одна из заметных различий: VIA была единственной компанией, желающей отправить юбридирует, что вызвало невосприимчивые ошибки хранения, если конечный пользователь также работал звуковогоBLaster Live.

Поскольку процессоры стали более мощными, они поглощают больше функций микроконтроллеров и специализированных аппаратных чипов, которые когда-то выполняли их. Для многих компаний было дешевле позволить ЦП справиться с различными задачами, чем инвестировать в продолжение создания специализированного кремния, который может соответствовать или превышать Intel.

После нескольких десятилетий оптимизации и дальнейших производственных и материальных инженерных улучшений, параметры проблемы изменились. Компьютеры работают на огромных наборах данных сейчас, и перевозки петабайт информации обратно через шину памяти на уровне предприятия - огромная энергия.

Создание более эффективной вычислительной модели, которая меньше полагается на движущихся данных в и из ЦП, требует переосмысления, какие данные процессор и не обрабатывают в первую очередь. Это также требует фундаментального переосмысления того, как создаются приложения. Полужинерирование недавно опубликовала пару отличных историй о снижении стоимости движения данных и идеи вычислительного хранения, и они говорили с Крисом Тобиасом, старшим директором Optane Solutions и Strategy в Intel. Некоторые из продуктов Optane Intel, такие как его непосредственный Connect Optane Aptane Pinsistent Memory, могут быть использованы в качестве огромного банка нерелатичного DRAM - намного больше, чем любой типичный бассейн DRAM - но воспользовавшись опцией требует модификации существующего программного обеспечения.

«Единственный способ, которым вы можете воспользоваться этим, - это полностью реструктурировать ваше программное обеспечение», - сказал Тобиас полуинжинетинг. «То, что вы делаете сейчас, вы говорите, у нас есть этот кусок [приложения], что вычислительное хранилище делает хорошую работу. Мы возьмем эту ответственность вдали от серверного программного обеспечения, а затем выгрузите несколько копий этой части в SSD, и именно здесь они все будут выполнять эту часть. Кто-то должен сделать измельчение программного обеспечения сервера в кусок, который попадает в SSDS. "

Эти типы улучшений эффективности улучшат реагирование и производительность процессоров, позволяя чипу тратить больше времени, выполняя полезную работу и меньшее время, приходящее к запросам ввода / вывода, которые могут быть лучше обрабатываться в другом месте. Одна интересная вещь, которую мы узнали о Apple M1 и MacOS несколько месяцев назад, это то, что Apple улучшила общую отзывчивость системы преимущественно планирующими фоновыми задачами на небольших задачах CPU, оставляя сердечники FIRSTORM бесплатно для более важных задач. Пользователи сообщили, что M1 Macs чувствует себя Snappier для использования, чем обычные устройства Intel, даже когда ориентиры не подтверждают фактическую увеличение скорости. Платформа ионного нетбука NVIDIA на основе атома с 10 лет назад является еще одним историческим примером того, как улучшается задержка - задержка дисплея и пользовательского интерфейса, в этом случае - сделала систему намного быстрее, чем на самом деле.

Ничто, что требует оптового повторного воображения стека хранения, в ближайшее время порадуют продукты для потребителей, но долгосрочный потенциал для улучшений реален. Для большей части истории компьютерной индустрии мы улучшили производительность, увеличив объем работы, проводимый процессор в течение каждого цикла. Задача вычислительного хранения и других методов перемещения рабочих нагрузок от ЦП - улучшить производительность процессора, предоставив ей меньше работы за цикл, что позволяет сосредоточиться на других задачах.

При этой модели ЦП будет немного больше похож на сам ускоритель. В частности, ЦП становится «ускорителем» последнего курорта. Когда рабочая нагрузка является сложной, сериализованной или полной ветвистого, непредсказуемого кода, которая делает его непригодным для GPU и / или любого будущего оборудования AI AMD AMD и Intel, может однодневное судно, оно выбита на CPU, что специализируется на конкретном процессе вид проблемы. Переместите поиск для хранения и некоторые вычисления в SSDS и RAM, а процессор имеет гораздо больше так много циклов, чтобы на самом деле хрустит данные.

Это то, что делает не двигать данными новой целью «1 ГГц». В середине 2010 года это была гонка до 0W, которая определила эффективность энергопотребления x86, а Intel и AMD оба пожинали значительные награды от уменьшения мощности холостого хода. В течение следующего десятилетия мы можем увидеть новую гонку начало - тот, который сосредоточен на том, сколько данных CPU может избежать обработки, а не подчеркивая, насколько она может Гувер.

Читать далее

RISC-V делает шаг навстречу мейнстриму с платой SiFive Dev Board и высокопроизводительным процессором

Для процессора следующего поколения, не движущие данные - новый 1 ГГц

Из центральной обработки до «ускорителя последнего курорта»

Читать далее

RISC-V делает шаг навстречу мейнстриму с платой SiFive Dev Board и высокопроизводительным процессором

VIA Technologies и Zhaoxin укрепляют связи с разработчиками процессоров x86

Intel представляет новые мобильные графические процессоры Xe Max для создателей контента начального уровня

Что значит для рынка ПК, если Apple сделает самый быстрый процессор?