Apple M1 Ultra Crushing Intel в производительности вычислительной жидкости динамики жидкости
Удивительно трудно точно определить, как Apple M1 сравнивается с процессорами Intel X86. В то время как семейство чипов было широко рассмотрено в ряде общих потребительских приложений, неизбежные различия между macOS и Windows, влияние эмуляции и различные степени оптимизации между X86 и M1 все затрудняют точные измерения.
Интересный новый эталонный результат и сопровождающий обзор от разработчика и инженера приложений Craig Hunter показывает, что M1 Ultra абсолютно разрушает каждый процессор Intel x86 на поле. Это даже не честный бой. Согласно результатам Хантера, M1 Ultra, работающий с шестью потоками, соответствует производительности 28-ядерной рабочей станции Xeon с 2019 года.
Любые затянувшиеся надежды на то, что M1 Ultra страдает внезапным и необъяснимым масштабирующим бедствием выше шести ядер, когда мы расширяем ось Y-оси графика, достаточно высоко, чтобы приспособиться к данным.
Это огромная победа для M1. Новый процессор Apple более чем в 2 раза быстрее, чем самый высокий результат Mac Mac Pro. Но что мы знаем о самом тесте?
НАСА описывается Hunter USM3D, описывается как «тетраэдрический решатель неструктурированного потока, который широко используется в промышленности, правительстве и научных кругах для решения аэродинамических проблем. С момента своего первого вступления в 1989 году USM3D неуклонно превращается из непревзойденного решателя Эйлера в полный код вязкого новира-Стоукса ».
Как отмечалось ранее, это анализ вычислительной динамики жидкости, а тесты CFD, как известно, чувствительны к пропускной способности памяти. Мы никогда не тестировали USM3D в WFOOJJAEC, и это не приложение, с которым я знаком, поэтому мы обратились к Хантеру для некоторых дополнительных разъяснений на самом тесте и того, как он составил его для каждой платформы. В Интернете появились некоторые предположения о том, что M1 Ultra достиг этих уровней производительности благодаря расширенным расширениям матрицы или другой неопределенной оптимизации, которая не была в игре для платформы Intel.
По словам Хантера, это не так.
«Я не ссылался на какую -либо Apple Frameworks при составлении USM3D на M1 или пытался настроить или оптимизировать код для Accelerate или AMX», - сказал инженер и разработчик приложений. «Я использовал источник usm3d с Gfortran и сделал довольно стандартную компиляцию с оптимизацией -O3».
«Честно говоря, я думаю, что это ставит исполняемый файл M1 USM3D в небольшой недостаток в исполняемом файле Intel USM3D», - продолжил он. «Я использовал компилятор Intel Fortran более 30 лет (это был декабрь Фортран, а затем Compaq Fortran, прежде чем стать Intel Fortran), и я знаю, как извлечь из этого максимум пользы. Компилятор Intel делает некоторую агрессивную векторизацию и оптимизацию при составлении USM3D, и исторически он дал лучшую производительность на x86-64, чем Gfortran. Поэтому я ожидаю, что оставил какую -то производительность в таблице, используя GFORTRAN для M1 ».
Мы спросили Охотника, что, по его мнению, объяснила производительность M1 Ultra относительно различных систем Intel. Инженер имеет многолетнюю опыт оценки производительности CFD на различных платформах, начиная от настольных систем, таких как Mac Pro и Mac Studio до настоящих суперкомпьютеров.
«Исходя из всех тестирования прошлого и настоящего, я чувствую, что это архитектура SOC, которая имеет наибольшую разницу здесь с Apple Silicon Machines, и, поскольку мы вызовыте больше ядер в вычислениях, пропускная способность системы будет основным драйвером для масштабирование производительности. M1 Ultra в студии имеет безумное количество пропускной способности системы ».
Бланка основан на коде CFD NASA USM3D, который доступен гражданам США по запросу на программном обеспечении.nasa.gov. Он поступает в качестве исходного кода и будет составлен с компилятором Fortran (вам также нужно будет создать OpenMPI с поддержанием поддержания компилятора). Makefiles настроены для MacOS или Linux с использованием компилятора Intel Fortran, который создает высоко оптимизированный исполняемый файл для X86-64. Вы также можете использовать GFORTRAN (что я использовал для систем Apple M1 ARM-64), но я ожидаю, что производительность будет ниже, чем то, что может включить на x86-64 ».
Что эти результаты говорят о матче x86 / m1
Не совсем удивительно, что SOC с большей пропускной способностью памяти, чем любой предыдущий процессор, будет хорошо работать в условиях ограниченной полосы пропускания. Что интересно в этих результатах, так это то, что они не обязательно зависят от какого -либо конкретного аспекта ARM против X86. Дайте процессору AMD или Intel столько же пропускной способности памяти, сколько и Apple, и производительность может улучшиться аналогичным образом.
В моей статье RISC против CISC - это неправильная линза для сравнения Modern X86, ARM CPU, я провел некоторое время, обсуждая, как Intel выиграла ISA Wars десятилетия назад не потому, что x86 по сути была лучшей архитектурой набора инструкций, а потому, что это могло использовать массив непрерывных улучшений производства при итеративном улучшении x86 от поколения до поколения. Здесь мы видим, что Apple, возможно, делает что -то подобное. M1 Ultra не разбивает каждый процессор Intel x86, потому что это волшебство, а потому, что интеграция DRAM на пакете в том, как Apple разблокировала огромные улучшения производительности. Нет никаких причин, по которым процессоры X86 также не могут воспользоваться этими выгодами. Тот факт, что этот эталон является таким, как Memory Bandwidth Limited, действительно предполагает, что системы высших систем озера Олдер могут соответствовать или превышать более старые Xeons, такие как 28-ядерный Mac Pro, но он все равно не будет соответствовать M1 Ultra для прозрачной пропускной способности между SOC и основная память.
Фактически, мы видим, что процессоры x86 предпринимают шаги для детей к интеграции более высокоскоростной памяти непосредственно на упаковке, но Intel на данный момент фокусируется на серверах, с Sapphire Rapids и его памятью HBM2 на пакете (доступна на некоторых будущих Skus ) Ни Intel, ни AMD не построили ничего подобного M1 Ultra, по крайней мере, пока. До настоящего времени AMD сосредоточился на интеграции более крупных кэш-каш -ров L3, а не на движении к DRAM на пакете. Любой такой шаг потребует бай-ин OEMS и нескольких других игроков в Пространстве для производства ПК.
Я не ожидаю, что ни один из производителей X86 спешит принять технологии только потому, что Apple использует ее, но M1 производит некоторые необычные результаты в определенных тестах, на отличной производительности за ватт. Вы можете поспорить, что каждый аспект подхода компании Cupertino Company к производству и проектированию был поставлен под (вероятный) микроскоп в AMD и Intel. Это особенно относится к прибыли, которые не связаны с какой -либо конкретной ISA или технологией производства.
Читать далее
Massive хочет арендовать вашу вычислительную силу для оплаты приложений, услуг
Идея Massive предполагает принятие концепции распределенных вычислений, которые использует дополнительные циклы ЦП на других машинах бездействия - и приносят его к способу оплаты.
Google анонсирует чип квантовой вычислительной техники Bristlecone
Google только что анонсировала новую микросхему квантовой вычислительной техники Bristlecone, которая может привести к крупному прорыву, известному как «квантовое превосходство».
Когда Atari ST был будущим вычислительной техники
Atari 520ST был первым 16-битным залпом Atari в войнах персональных компьютеров 1980-х годов. Новая книга Джейми Лендино показывает огромное влияние, которое ST оказал на игровые и музыкальные проекты.