Новая утилита может удвоить производительность AMD Threadripper 2990WX
32-ядерный процессор AMD 2990WX Threadripper всегда был чем-то вроде неопределенного предложения. Несмотря на то, что в некоторых сценариях он, несомненно, быстр, в других тестах отмечен резкий спад производительности, и он не всегда превосходит 16-ядерный Threadripper 2950X. Теперь есть утилита CorePrio, которую можно использовать для восстановления большей части недостающей производительности 2990WX в Windows 10.
Level1Techs опубликовала обширный отчет о своих исследованиях производительности на 2990WX. Первоначальное предположение о том, что перегрузка пропускной способности памяти ответственна за снижение общей производительности, хотя и не во всех случаях неверно, оказалось неполным. Уровень 1 обнаружил, что такие же регрессии производительности присутствовали в тестируемом Epyc 7551, который имел восемь каналов памяти вместо четырех в Threadripper. Опять же, производительность в Linux была хорошей, но производительность в Windows была подорвана. Но Level1 также обнаружил странное поведение, связанное с изменением сродства процессоров Windows, и как это повлияло на общее тестирование производительности.
В конечном итоге их исследование выявило проблемы с тем, как определенные приложения перемещают рабочие нагрузки между ядрами в процессорах с поддержкой NUMA с более чем одним узлом NUMA. Уровень 1 пишет: «Когда через« идеальный ЦП »рекомендуется только один узел NUMA, ядро Windows тратит половину доступного времени ЦП, просто перетасовывая потоки между ядрами».
Они продолжают:
Вот интересный момент: если у вас есть только один ДРУГОЙ узел NUMA - кажется, что окна возвращаются к тому, что потоки могут устанавливать себя на втором узле NUMA… Это, скорее всего, связано с исправлением ошибок от Microsoft для 1 или 2 сокетов Extreme Core Count (XCC) Xeons, где физический процессор Xeon имеет два узла numa. В прошлом (с Xeon V4 и, возможно, V3) один из этих узлов NUMA не имел доступа к устройствам ввода-вывода (но имел доступ к памяти через кольцевую шину).
Если это так, то этот обходной путь, гарантирующий, что процесс этого типа остается на «идеальном процессоре» в одном сокете, не имеет представления о том, что делать, если в одном пакете имеется более одного другого узла NUMA для «отработки отказа». ”К.
Решением этой проблемы является утилита с именем CorePrio:
CorePrio решает эту проблему и позволяет равномерно распределять потоки между процессорами, а не Windows, тратя все свое время, пытаясь перетасовать их через кристалл. Похоже, что причина резкого снижения производительности с 2990WX была вызвана, по крайней мере частично, тем, что Windows тратила гораздо больше времени на перемещение рабочих нагрузок с ЦП на ЦП, чем когда-либо фактически выполняла работу. Очевидно, что это не повысит производительность Threadripper в приложениях, где он уже хорошо масштабирован, но это должно исправить регрессию производительности во многих приложениях.
Пока не ясно, вовлечена ли подсистема памяти в это. Если потоки неправильно распределены на неправильном узле NUMA, возможно, что доступ к памяти осуществляется в основном или полностью через один контроллер памяти. Это объясняет, почему восьмиканальный Epyc в режиме NUMA дает такую же производительность (с учетом тактовой частоты), что и четырехканальный TR. И вполне могут быть приложения, которые плохо масштабируются в конфигурации NUMA 2990WX по причинам, не связанным с какими-либо недостатками в планировщике Windows 10.
Полный объем ошибки и ее возможные исправления еще не были полностью раскрыты, если «исправление неизвестной проблемы с Windows perf» не было подсказкой выше. Microsoft и AMD еще не выпустили официальные ответы, и неясно, в какие сроки решается эта проблема с помощью обновления ОС. Но если вы владелец 2990WX или хотите стать им, это может изменить расчет того, стоит ли инвестировать в этот чип, если вы, во-первых, очевидно, что вы очень специфический клиент. Средним и даже не таким средним геймерам нет необходимости, поскольку чипы, такие как 2990WX, вначале играют в очень ограниченном пространстве.
Читать далее
Обзор MSI Nvidia RTX 3070 Gaming X Trio: производительность 2080 Ti, цены на Pascal
Новый RTX 3070 от Nvidia - потрясающий графический процессор по хорошей цене, и MSI RTX 3070 Gaming X Trio хорошо это демонстрирует.
Обзор Ryzen 9 5950X и 5900X: AMD демонстрирует Zen 3 против последних бастионов производительности Intel
AMD продолжает натиск на то, что когда-то было бесспорным дерн Intel.
Intel распространяет FUD о якобы огромном падении производительности Ryzen 4000 от батареи
Intel считает, что представила доказательства, опровергающие ценность стека продуктов AMD Ryzen 4000. Intel ошибается.
Текущие измерения производительности x86 и Apple M1 ошибочны
Между архитектурами процессоров x86 и ARM существует внутренняя разница, которая затрудняет сравнение производительности - и это не было замечено на первоначальной волне освещения.