Внезапно Intel сильно обеспокоена тестированием в реальном мире

По крайней мере, начиная с Computex, корпорация Intel выражала обеспокоенность рецензентам по поводу типов тестов, которые мы проводим, какие тестеры приложений, как правило, используют и фиксируют ли эти тесты «реальную» производительность. В частности, Intel считает, что слишком много внимания уделяется таким тестам, как Cinebench, в то время как приложения, которые люди фактически используют, практически игнорируются.

Давайте уберем несколько вещей с первого взгляда.

У каждой компании есть ориентиры, которые она предпочитает, и ориентиры, которые ей не нравятся. Тот факт, что некоторые тесты работают лучше на AMD против Intel или на Nvidia против AMD, сам по себе не является доказательством того, что эталон был намеренно разработан в пользу той или иной компании. Компании склонны выражать беспокойство по поводу того, какие тесты используют рецензенты, когда сталкиваются с усилением конкурентного давления на рынке. Те из вас, кто считает, что Intel ставит вопросы о тестах, которые мы, обозреватели, используем совместно, частично потому, что проигрывают во многих из этих тестов, не ошибаются. Но то, что у компании есть корыстные причины ставить вопросы, еще не означает, что компания тоже неправа. И поскольку я не трачу десятки часов и время от времени на тестирование аппаратного обеспечения, чтобы дать людям неверное представление о том, как оно будет работать, я всегда готов пересмотреть свои собственные выводы.

Ниже приведены мои собственные мысли об этой ситуации. Я не претендую на то, чтобы говорить от имени любого другого рецензента, кроме меня самого.

Интересно, что думает по этому поводу Максон, учитывая, что он был главным партнером Intel в SIGGRAPH.

Что на самом деле означает представление в реальном мире?

Быть в пользу реальных аппаратных тестов - одно из наименее противоречивых мнений, которое можно придерживаться в вычислительной технике. Я встречал людей, которым не обязательно беспокоиться о разнице между синтетическими и реальными тестами, но я никогда не вспоминаю встречи с кем-то, кто считал, что реальное тестирование не имеет значения. Тот факт, что почти все согласны с этим, не означает, что все согласны с тем, где находятся грань между реальным и синтетическим эталоном. Рассмотрим следующие сценарии:

Разработчик создает эталон вычислений, который тестирует производительность графического процессора на аппаратном обеспечении AMD и Nvidia. Он измеряет производительность, которую должны предлагать оба семейства графических процессоров в CUDA и OpenCL. Сравнения показывают, что его результаты достаточно хорошо отображаются в приложениях на местах
Компания, занимающаяся 3D-рендерингом, создает автономную версию своего приложения для сравнения производительности между процессорами и / или графическими процессорами. Автономный тест точно отражает базовую производительность (очень дорогого) пакета 3D-рендеринга в простом и удобном тесте.
Компания, занимающаяся 3D-рендерингом, создает ряд тестовых сцен для сравнительного анализа своего полного набора приложений. Каждая сцена фокусируется на выделении определенной техники или технологии. Они в совокупности предназначены для демонстрации влияния различных характеристик на производительность, а не на единый общий рендер.
Игра включает в себя встроенный тест производительности. Вместо того, чтобы воспроизводить точную сцену из игры, разработчики создают демонстрацию, которая тестирует каждый аспект производительности движка в течение нескольких минут. Тест можно использовать для измерения производительности новых функций в API, таких как DX11.
Игра включает в себя встроенный тест производительности. Этот тест основан на одной карте или событии в игре. Он точно измеряет производительность в этой конкретной карте или сценарии, но не включает никаких данных на других картах или сценариях.

У вас будет собственное мнение о том, какие из этих сценариев (если таковые имеются) представляют собой эталон реального мира, а какие нет. Позвольте мне задать вам другой вопрос - тот, который я искренне считаю, важнее, чем то, является ли тест «реальным» или нет. Какой из этих гипотетических тестов говорит вам что-то полезное о производительности тестируемого продукта?

Ответ таков: «Потенциально, все они». Какой контрольный показатель я выбираю, зависит от вопроса, который я задаю. Синтетический или автономный тест, который служит хорошей моделью для другого приложения, все еще точно моделирует производительность в этом приложении. Это может быть гораздо лучшая модель для реальной производительности, чем тесты, выполняемые в приложении, которое было сильно оптимизировано для конкретной архитектуры. Несмотря на то, что все тесты в оптимизированном приложении являются «реальными» - они отражают реальные рабочие нагрузки и задачи - само приложение может быть непредставительным выбросом.

Все сценарии, которые я описал выше, могут стать хорошими контрольными показателями, в зависимости от того, насколько хорошо они обобщены для других приложений. Обобщение важно при рассмотрении. По моему опыту, рецензенты, как правило, пытаются сбалансировать приложения, известные в пользу одной компании, с приложениями, которые хорошо работают на всех устройствах. Часто, если специфичная для поставщика функция включена в одном наборе данных, обзоры будут включать второй набор данных с тем же отключенным признаком, чтобы обеспечить более нейтральное сравнение. Использование флагов, специфичных для поставщика, может иногда нанести ущерб способности теста общаться с более широкой аудиторией.

Intel предлагает альтернативный подход

До сих пор мы строго говорили о том, является ли тест реальным в свете того, распространяются ли результаты на другие приложения. Однако есть и другой способ сформулировать тему. Intel опросила пользователей, чтобы выяснить, какие приложения они фактически использовали, а затем представила нам эти данные. Это выглядит так:

Здесь подразумевается, что, тестируя наиболее распространенные приложения, установленные на аппаратном обеспечении людей, мы можем выявить лучший, более представительный вариант использования. Это кажется интуитивно верным - но реальность сложнее.

То, что приложение часто используется, не делает его объективно хорошим эталоном. Некоторые приложения не особенно требовательны. Несмотря на то, что существуют абсолютные сценарии, в которых измерение производительности Chrome может иметь важное значение, например, для ноутбуков низкого уровня, хорошие обзоры этих продуктов уже включают тесты такого типа. В контексте высокого уровня энтузиастов Chrome вряд ли будет налоговым приложением. Существуют ли тестовые сценарии, которые могут облагать налогом? Да. Но эти сценарии не отражают способ, которым приложение наиболее часто используется.

Было время, когда я тратил гораздо больше времени на тестирование многих приложений в этом списке, чем сейчас. Когда я начинал свою карьеру, большинство тестовых пакетов были посвящены офисным приложениям и базовым тестам 2D-графики. Я помню, когда замена чьего-то графического процессора могла существенно улучшить качество 2D-изображения и скорость отклика пользовательского интерфейса Windows даже без обновления монитора. Когда я писал для Ars Technica, я сравнивал загрузку процессора при декодировании HD-контента, потому что в то время существовали существенные различия. Если вспомнить, когда дебютировали нетбуки Atom, многие обзоры были посвящены таким вопросам, как скорость отклика пользовательского интерфейса с помощью графического процессора Nvidia Ion, и сравнивали его с интегрированной графикой Intel. Зачем? Потому что Ion заметно изменил общую производительность пользовательского интерфейса. Рецензенты не игнорируют эти проблемы. Публикации имеют тенденцию возвращаться к ним, когда существует значимая дифференциация.

Я не выбираю контрольные показатели исключительно потому, что приложение популярно, хотя популярность может влиять на окончательное решение. Цель общего обзора - выбрать тесты, которые будут хорошо обобщены для других приложений. Тот факт, что у человека установлен Steam или Battle.net, мне ничего не говорит. Этот человек играет в Overwatch или WoW Classic? Они играют в Minecraft или No Man's Sky? Они выбирают MMORPG или FPS-игры, или они просто остановились в Goat Simulator 2017? Они вообще играют в какие-нибудь игры? Я не могу знать без дополнительных данных.

Приложения в этом списке, которые показывают существенные различия в производительности в общих задачах, как правило, уже протестированы. Такие публикации, как Puget Systems, регулярно публикуют сравнения производительности в наборе Adobe. В некоторых случаях причина, по которой приложения не тестируются чаще, состоит в том, что существуют давние опасения относительно надежности и точности набора тестов, который чаще всего включает их.

Меня всегда интересуют лучшие методы измерения производительности ПК. Корпорация Intel играет определенную роль в этом процессе - во многих случаях компания оказала помощь в поиске способов выделения новых функций или устранения неполадок. Но единственный способ найти значимые различия в оборудовании - это найти значимые различия в тестах. Опять же, вообще говоря, вы увидите, что обозреватели проверяют ноутбуки на наличие пробелов в времени автономной работы и потреблении энергии, а также производительности. В графических процессорах мы ищем различия во времени и частоте кадров. Поскольку никто из нас не может выполнять каждую рабочую нагрузку, мы ищем приложения с обобщенными результатами. В ET я запускаю несколько приложений рендеринга специально, чтобы убедиться, что мы не поддерживаем ни одного поставщика или решения. Вот почему я тестирую Cinebench, Blender, Maxwell Render и Corona Render. Когда дело доходит до кодирования мультимедиа, Handbrake является практически универсальным решением, но мы проверяем как H.264, так и H.265, чтобы убедиться, что мы фиксируем несколько тестовых сценариев. Когда тесты оказываются неточными или недостаточными для сбора необходимых мне данных, я использую разные тесты.

Ложная дихотомия

Разногласие между «синтетическими» и «реальными» эталонами - это плохая формулировка проблемы. В конечном итоге важно то, предоставляют ли данные эталонных тестов, представленные рецензентом, точное представление об ожидаемой производительности устройства. Как рассказывает Роб Уильямс из Techgage, Intel была очень рада использовать Cinebench от Maxon в качестве ориентира в те времена, когда его собственные ядра ЦП доминировали в производительности. В недавнем сообщении на Medium Райан Шрут из Intel написал:

Сегодня в IFA мы провели мероприятие для представителей средств массовой информации и аналитиков по теме, которая очень близка и близка нашему сердцу - Real World Performance. Мы проводим эти мероприятия уже несколько месяцев, начиная с Computex, а затем с E3, и мы многому научились на этом пути. Этот процесс укрепил наше мнение о синтетических тестах: они обеспечивают ценность, если вам нужен быстрый и узкий взгляд на производительность. Мы по-прежнему используем их для своих целей и знаем, что многие из вас это делают, но реальность такова, что они становятся все более неточными при оценке реальной производительности для пользователя, независимо от рассматриваемого сегмента продукта.

Звучит чертовски Он следует за этим с этим слайдом:

Чтобы продемонстрировать предполагаемую неполноценность синтетических тестов, Intel показывает 14 отдельных результатов, 10 из которых взяты из 3DMark и PCMark. Оба эти приложения обычно считаются синтетическими. Когда компания представляет данные о своей эффективности по сравнению с ARM, она снова делает то же самое:

Почему Intel ссылается на синтетические приложения в том же сообщении в блоге, в котором она специально называет их плохим выбором по сравнению с предположительно превосходными «реальными» тестами? Возможно, это связано с тем, что Intel делает свой выбор эталонных тестов, как это делают мы, рецензенты, - с целью получения результатов, которые являются репрезентативными и воспроизводимыми, с использованием доступных тестов, с хорошими наборами функций, которые не выходят из строя или дают сбой по неизвестным причинам после установки. Возможно, у Intel также есть проблемы с постоянным потоком программного обеспечения, выпускаемого на постоянной основе, и она выбирает тесты для представления своих продуктов, от которых она может зависеть. Возможно, он хочет продолжать разрабатывать свои собственные синтетические тесты, такие как WebXPRT, не затрачивая все усилия на шину, хотя одновременно пытается попытаться предположить, что тесты, на которые опирается AMD, являются неточными.

И, возможно, это потому, что все кадры синтетического против реального мира плохи для начала.

Читать далее

Раджа Кодури из Intel представит на предстоящей конференции Samsung Foundry

Внезапно Intel сильно обеспокоена тестированием в реальном мире

Что на самом деле означает представление в реальном мире?

Intel предлагает альтернативный подход

Ложная дихотомия

Читать далее

Раджа Кодури из Intel представит на предстоящей конференции Samsung Foundry

Новые детали Intel Rocket Lake: обратная совместимость, графика Xe, Cypress Cove

Intel представляет новые мобильные графические процессоры Xe Max для создателей контента начального уровня

Обзор Ryzen 9 5950X и 5900X: AMD демонстрирует Zen 3 против последних бастионов производительности Intel