Apple's New M1 Ultra Packs Revolutionary GPU

Новый Apple M1 Ultra Soc, объявил вчера, представляется подлинным прорывом. Новый M1 Ultra изготовлен из двух максимальных микросхем M1 и имеет новый интеграционный подход GPU, который не видел на рынке раньше. В то время как SOC содержит два GPU - один на M1 Max - игры и приложения, работающие на Apple M1 Ultra, см. Один графический процессор.

Во время своего раскрытия Apple признала, что M1 Max Soc имеет особенность, которую компания не раскрыла в прошлом году. С самого начала M1 Max был разработан для поддержки высокоскоростных межсоединений через кремниевый интерполее. Согласно Apple, эта межполомая сеть, назвала Ultrafusion, может обеспечить 2,5 ТБ / с низкозащитной пропускной способности. Компания утверждает, что это «более 4x пропускной способности ведущей многосмышечной технологии InterConnect».

Apple не имеет ссылок на CPU Interconnects здесь. AMD EPYC CPUS использует бесконечную ткань, которая поддерживает максимум 204,8 ГБ / с пропускной способности по всему чипу, когда в паре с DDR4-3200. Xeonks Skylake Intel используют Ultra Path Interconnect (UPI) с соединением 41,6 ГБ / с между двумя розетками. Никто из них нигде не рядом с 625 ГБ / с. Apple может быть ссылаться на NVIDIA'S GA100, которая может предложить ~ 600 ГБ / с пропускной способности через NVLink 3.0. Если мы предполагаем, что NVLink 3.0 является подходящим сравнением, Apple утверждает, что его новый настольный SOC предлагает 4X Inter-Chip пропускной способности Top-End Server GPU NVIDIA.

Согласно Apple, обеспечивая такое огромное количество полосы пропускания, позволяет M1 вести себя и быть признанным в программном обеспечении как один чип с единой 128 ГБ пул памяти, который он долится с процессором. Компания утверждает, что никогда не было ничего подобного. Они могут быть правы. Мы знаем, что NVIDIA и AMD оба сделали некоторую работу над концепцией расчетных графических процессоров, но ни одна компания никогда не принесла продукцию на рынок.

Длинная дорога к GPU Chiblets

Концепция расщепления GPU в дискретные блоки и агрегируя их вместе на пакете предлагает распространенное использование слова «Chostlet», хотя это то, что мы бы назвали этот подход сегодня. NVIDIA выполнила исследование на эту тему несколько лет назад.

GPUS - это некоторые из крупнейших чипов, изготовленных на любой данной итерации узла процесса. Те же экономия масштаба, которая делает CPU Chaklets доступными и эффективными, могут теоретически выгодно пограммать границы так же. Проблема с GPU Chublets заключается в том, что нагрузка на масштабирование на нескольких картах обычно требует много пропускной способности ткани между самими фишками. Чем больше Chaklets вы хотите объединить, тем сложнее это проводит все они вместе без влияния на устойчивую производительность.

Ограничения пропускной способности памяти и задержки являются частью того, почему AMD, Intel и NVIDIA никогда не отправляли двойное графическое решение, которое может легко воспользоваться интегрированным GPU, встроенным во многие процессоры сегодня. Apple, по-видимому, нашел путь вокруг этой проблемы, где производители ПК не. Причина этого может быть объяснена более благоприятным рынком Компании, чем на неотъемлемые недостатки в Intel или AMD.

Apple имеет уникальные стимулы дизайна

И Intel и AMD производят чипсы для других людей, чтобы построить вещи с. Apple строит компоненты только для себя. Intel и AMD поддерживают и способствуют изготовлению экосистем для настольных компьютеров и ноутбуков, и его клиенты ценят гибкость.

Какму известят, как Dell, HP и Lenovo могут иметь возможность комбинировать CPU и GPU в различные способы достижения ценовых точек и обращение к клиентам. Однако от точки зрения Apple, клиенты денег, развернутые для стороннего GPU, представляют доход, оно может заработать на себя. В то время как Apple, и PC OEM OEMS зарабатывают дополнительные прибыли, когда они продают систему с дискретной графической группой, делясь этими прибылью с AMD, NVIDIA, а Intel - это цена OEMS, за которую не выполняет GPU R & D самими.

Клиент ПК, который строит 16-я-ядерный рабочий стол, почти наверняка ожидает способности обновлять графический процессор с течением времени. Некоторые высокорочные клиенты Core Count не заботятся о производительности GPU, но для тех, которые делают, способность обновлять систему со временем, является основной особенностью. Apple, напротив, имеет длинную модернимость системы Downplayed.

Ближайшие фишки X86 до M1 Ultra будут SOCS внутри Xbox Series X и PlayStation 5. В то время как ни одна консоль не содержит на пакете RAM, они оба предлагают мощный GPU, интегрированный непосредственно на пакет в системах, предназначенных для продажи за 500 долларов. Одной из причин, по которой мы не видим, что такие чипы на рынке ПК - это связано с возможностью гибкости ценности OEM и модульность больше, чем они ценят возможность стандартизироваться на несколько чипов в течение многих лет.

Может быть, одна из причин, по которой мы не видели этот вид чипа от AMD, Intel или NVIDIA, потому что ни один из них не имел особого стимула для его построения.

Как M1 Apple M1 Max использует пропускную способность памяти

Когда M1 Apple M1 поставляется, тесты показали, что ядра ЦП не могут получить доступ к полноположной пропускной способности системы. Из 400 ГБ / с теоретической пропускной способности, доступной для M1 MAX, ЦП может использовать только ~ 250 ГБ / с.

Остальная часть пропускания выделяется на другие блоки SOC. Anandtech измерил графический процессор как вытягивание ~ 90 ГБ / с пропускной способности и остальной части ткани на 40-50 ГБ / с во время тяжелого использования.

Учитывая эти виды спецификаций, хлопая по бок о бок с двумя чипами, с дублирующими бассейнами ОЗУ, не звучит автоматически, как огромное достижение. AMD Ships восемь Chahslets устанавливается на общий промежуточный процессор в процессоре 64 ядра. Но именно здесь претензии масштабирования Apple имеют вес.

Для того, чтобы M1 Ultra GPU для работы в качестве унифицированного решения это означает, что оба GPU Cделите данные, так и адреса памяти на двух физических умираниях. В обычном растворе многоградного процессора пару карт с 16 ГБ VRAM каждая из них появится как карты 2x16GB, а не одной карты с 32 ГБ VRAM. NVIDIA NVLINK позволяет двум или более процессором для бассейна VRAM, но степень улучшения производительности значительно зависит от рабочей нагрузки.

Что касается того, что должно ожидать, что клиенты производительности GPU должны ожидать? Это неясно. M1 Max хорошо работает в рабочих нагрузках на обрабатываю видео, но является посредственным игровым процессором GPU. M1 Ultra должна видеть сильное масштабирование, благодаря удванению ресурсов GPU, но оздоровительная поддержка Apple для Gaming Mac Mac может подрезать любые преимущества производительности, которое может доставить аппаратное обеспечение.

Большой прорыв Apple здесь находится в создании графического процессора в двух разных дольшах, которые, по-видимому, ведут себя как единую логическую карту. На протяжении многих лет AMD и NVIDIA продолжали работать над графическими Chiblets, подразумевающими, что мы увидим дискретные решения Choble от обеих компаний в будущем. Мы будем больше говорить о последствиях разработки Apple, как только мы посмотрим, какие ориентиры показывают нам тесты о масштабировании.