Intel раптом дуже стурбована тестуванням «Реального світу»

Intel раптом дуже стурбована тестуванням «Реального світу»

Як мінімум Computex, Intel викликає занепокоєння у рецензентів щодо типів тестів, які ми проводимо, які рецензенти додатків, як правило, використовують, і чи ці тести фіксують продуктивність у реальному світі. Зокрема, Intel вважає, що надто великий акцент робиться на тести, такі як Cinebench, тоді як програми, якими користуються люди, фактично ігноруються.

Давайте розберемося з кількома речами наперед.

У кожної компанії є орієнтири, які вона віддає перевагу, і тести, які їй не подобаються. Той факт, що деякі тести працюють краще на AMD порівняно з Intel, або на Nvidia порівняно з AMD, сам по собі не є свідченням того, що орієнтир був навмисно розроблений на користь тієї чи іншої компанії. Компанії, як правило, викликають занепокоєння щодо того, які рецензенти використовують рецензенти, коли вони стикаються з посиленням конкурентного тиску на ринку. Ті з вас, хто думає, що Intel ставить питання про тести, які ми рецензенти колективно використовують частково, оскільки втрачає багато цих тестів - не помиляється. Але тільки тому, що компанія має власні зацікавлені причини, щоб викликати питання, це не означає автоматично, що і компанія помиляється. І оскільки я не витрачаю десятки годин і періодично тестую обладнання, щоб дати людям помилкове уявлення про те, як це буде працювати, я завжди готовий переглянути свої власні висновки.

Далі - мої власні думки щодо цієї ситуації. Я не претендую виступати за будь-якого іншого рецензента, окрім себе.

Можна задатися питанням, що Максон думає з цього приводу, враховуючи, що він був головним партнером Intel в SIGGRAPH.
Можна задатися питанням, що Максон думає з цього приводу, враховуючи, що він був головним партнером Intel в SIGGRAPH.

Що насправді означає продуктивність у реальному світі?

Захист реальних апаратних орієнтирів - це одне з найменш суперечливих думок, що можна дотримуватися при обчисленні. Я зустрічав людей, яким не обов’язково цікавитись різницею між синтетичними та реальними тестами, але я ніколи не пригадую, щоб зустрічав когось, хто вважав тестування реального світу неактуальним. Те, що майже всі згодні з цим питанням, не означає, що всі згодні з тим, де розташовані лінії між реальним світом та синтетичним орієнтиром. Розглянемо наступні сценарії:

  • Розробник створює обчислювальний тест, який тестує продуктивність GPU як на AMD, так і на Nvidia. Він вимірює ефективність обох сімей GPU, які повинні запропонувати в CUDA та OpenCL. Порівняння показують, що його результати досить добре відображаються до застосувань у цій галузі.
  • Компанія з 3D-рендерінгу створює окрему версію свого додатка для порівняння продуктивності між процесорами та / або графічними процесорами. Автономний тест точно фіксує основні показники (дуже дорогого) набору 3D-рендерінга в простому, простому у використанні тесті.
  • Компанія з 3D-рендерінгу створює ряд тестових сцен для порівняльної оцінки свого повного набору програм. Кожна сцена сфокусована на висвітленні конкретної техніки чи технології. Вони в сукупності мають на меті показати ефективність різних функцій, а не пропонувати єдину загальну візуалізацію.
  • Гра включає вбудований тест на тест. Замість того, щоб тиражувати точну сцену з гри, розробники створюють демонстраційну версію, яка перевіряє всі аспекти роботи двигуна протягом декількох хвилин. Тест може бути використаний для вимірювання продуктивності нових функцій в такому API, як DX11.
  • Гра включає вбудований тест на тест. Цей тест заснований на одній карті чи події в грі. Він точно вимірює ефективність у цій конкретній карті чи сценарії, але не включає жодних даних про інші карти чи сценарії.

Ви будете мати власну думку про те, який із цих сценаріїв (якщо такий є) є орієнтиром у реальному світі, а який - ні. Дозвольте задати вам інше запитання - те, що я щиро вважаю, важливіше, ніж тест "реальний" чи ні. Який із цих гіпотетичних орієнтирів говорить вам про щось корисне щодо продуктивності тестуваного продукту?

Відповідь: "Потенційно, всі вони". Який тест я обрав - це функція того питання, яке я задаю. Синтетичний або автономний тест, який функціонує як хороша модель для іншого застосування, все ще точно моделює продуктивність у цій програмі. Це може бути набагато краща модель для роботи в реальному світі, ніж тести, виконані в додатку, який був сильно оптимізований для конкретної архітектури. Навіть незважаючи на те, що всі тести в оптимізованому додатку є "реальними" - вони відображають реальні навантаження та завдання - сама програма може бути непредставницькою.

Усі описані вище сценарії можуть бути хорошими орієнтирами, залежно від того, наскільки добре вони узагальнені для інших програм. Узагальнення важливе при огляді. На мій досвід, рецензенти, як правило, намагаються збалансувати програми, відомі на користь однієї компанії, із програмами, які добре працюють на апаратному забезпеченні кожного. Часто, якщо в одному наборі даних увімкнено функцію, пов’язану з постачальником, огляди включатимуть другий набір даних із таким самим відключеним, щоб забезпечити більш нейтральне порівняння. Запуск прапорів, орієнтованих на продавця, іноді може завдати шкоди здатності тесту говорити широкій аудиторії.

Intel пропонує альтернативний підхід

До цих пір ми суворо говорили про те, чи є тест реальним у світлі того, чи узагальнюють результати інші програми. Однак є інший спосіб обрамлення теми. Intel опитував користувачів, щоб побачити, які додатки вони насправді використовували, потім представив нам ці дані. Це виглядає приблизно так:

Intel раптом дуже стурбована тестуванням «Реального світу»

Слід мати на увазі, що тестуючи найпоширеніші додатки, встановлені на апаратному забезпеченні людей, ми можемо зафіксувати кращий, репрезентативніший варіант використання. Це відчувається інтуїтивно правдиво - але реальність є складнішою.

Тільки тому, що додаток часто використовується, це не робить його об'єктивно хорошим орієнтиром. Деякі програми не особливо вимогливі. Хоча існують абсолютно сценарії, коли вимірювання продуктивності Chrome може бути важливим, як, наприклад, місце для ноутбуків низького класу, хороші відгуки про ці продукти вже включають такі типи тестів. У контексті для любителів високого класу Chrome навряд чи стане додатком для оподаткування. Чи є тестові сценарії, які можуть зробити його оподаткуванням? Так. Але ці сценарії не відображають спосіб найчастіше використання програми.

Був час, коли я витрачав набагато більше часу на тестування багатьох програм у цьому списку, ніж у нас зараз. Коли я розпочав свою кар’єру, більшість наборів тестів зосереджувались на офісних програмах та базових тестах на 2D графіку. Пам’ятаю, коли заміна чийогось графічного процесора могла б значно покращити 2D якість зображення та чутливість інтерфейсу Windows, навіть не оновлюючи монітор. Коли я писав для Ars Technica, я писав порівняння використання процесора під час декодування HD-вмісту, тому що в той час були знайдені суттєві відмінності. Якщо ви подумаєте, коли дебютували нетбуки Atom, багато оглядів зосереджувались на таких питаннях, як реагування на інтерфейс користувача із рішенням GPU Nvidia Ion і порівнювали його з інтегрованою графікою Intel. Чому? Тому що Іон помітно змінився в загальній продуктивності інтерфейсу користувача. Рецензенти не ігнорують ці проблеми. Публікації, як правило, повертаються до них, коли існує змістовна диференціація.

Я не вибираю орієнтири огляду лише тому, що додаток популярний, хоча популярність може входити в остаточне рішення. Мета, в загальному огляді, - вибрати тести, які добре узагальнить інші програми. Те, що у людини встановлено Steam або Battle.net, нічого не говорить мені. Ця людина грає в Overwatch чи WoW Classic? Вони грають у Minecraft чи No Man's Sky? Вони обирають ігри MMORPG або FPS, або їх просто затримали в Goat Simulator 2017? Вони насправді взагалі грають у якісь ігри? Я не можу знати без додаткових даних.

Програми у цьому списку, які показують значущі відмінності у виконанні загальних завдань, зазвичай вже перевірені. Такі публікації, як Puget Systems, регулярно публікують порівняння продуктивності в пакеті Adobe. У деяких випадках причина, коли програми не перевіряються частіше, полягає в тому, що існує давнє занепокоєння щодо надійності та точності набору тестів, який найчастіше включає їх.

Мене завжди цікавлять кращі методи вимірювання продуктивності ПК. Intel абсолютно має роль у цьому процесі - компанія багато разів допомагає, коли йдеться про пошук способів виділити нові функції або вирішити проблеми. Але єдиний спосіб знайти значущі відмінності апаратних засобів - це знайти значущі відмінності в тестах. Знову ж таки, загалом кажучи, ви побачите, що рецензенти перевіряють ноутбуки на наявність пробілів у ресурсі акумулятора та енергоспоживання, а також в продуктивності. У графічних процесорах ми шукаємо відмінності у часі кадру та частоті кадрів. Оскільки ніхто з нас не може виконувати кожне робоче навантаження, ми шукаємо додатки з узагальнюючими результатами. В ET я запускаю кілька додатків для рендерінгу спеціально, щоб переконатися, що ми не надаємо перевагу жодному постачальнику чи рішенню. Ось чому я тестую Cinebench, Blender, Maxwell Render та Corona Render. Що стосується кодування медіа, то Handbrake - це практично кожне рішення, яке стосується кожного - але ми перевіряємо і H.264, і H.265, щоб переконатися, що ми захопили кілька тестових сценаріїв. Коли тести виявляються неточними або недостатніми для збору потрібних мені даних, я використовую різні тести.

Помилкова дихотомія

Дуже аргументована різниця між "синтетичними" та "реальними" орієнтирами - це погана постановка проблеми. Зрештою, важливо, чи пропонують рецензент референтні дані в точності з точки зору очікуваної продуктивності пристрою. Як детально розповідає Роб Вільямс у Techgage, Intel тільки надто рада використовувати Cinebench Максона як орієнтир у часи, коли власні ядра процесора домінували в продуктивності. У недавньому дописі про "Середній" Райан Шрот від Intel написав:

Сьогодні в IFA ми провели захід для відвідування членів спільноти ЗМІ та аналітиків на тему, яка дуже близька і дорога нашому серцю - «Реальний світ». Ми проводимо ці події вже кілька місяців, починаючи з Computex, а потім на E3, і ми багато чому навчились на цьому шляху. Цей процес підкріпив нашу думку щодо синтетичних орієнтирів: вони забезпечують цінність, якщо ви хочете швидкого та вузького погляду на ефективність. Ми все ще використовуємо їх внутрішньо і знаємо, що багато хто з вас також працює, але реально, вони все частіше неточні в оцінці реальних показників для користувача, незалежно від продуктового сегменту.

Звучить дзвінко. Він слідкує за цим слайдом:

Intel раптом дуже стурбована тестуванням «Реального світу»

Щоб продемонструвати передбачувану неповноцінність синтетичних тестів, Intel показує 14 окремих результатів, 10 з яких отримані з 3DMark та PCMark. Обидва ці програми, як правило, вважаються синтетичними програмами. Коли компанія представляє дані про свою власну ефективність порівняно з ARM, вона знову витягує той самий трюк:

Intel раптом дуже стурбована тестуванням «Реального світу»

Чому Intel посилається на синтетичні програми в тому самому дописі блогу, в якому конкретно називає їх поганим вибором порівняно з нібито найкращими тестами "реального світу"? Можливо, це тому, що Intel робить свій вибір орієнтиру так само, як ми робимо рецензентів - з оглядом на результати, які є репрезентативними та відтворюваними, використовуючи доступні тести, з хорошими наборами функцій, які не встановлюються з ладу або не виходять із незрозумілих причин після встановлення. Можливо, Intel також має проблеми з постійним потоком програмного забезпечення, що випускається на постійній основі, і підбирає тести для представлення своїх продуктів, від яких може залежати. Можливо, він хоче продовжувати розробляти власні синтетичні орієнтири, такі як WebXPRT, не кидаючи цілі зусилля під шину, хоча одночасно намагається зрозуміти, що тести, на які покладається AMD, є неточними.

І, можливо, це тому, що все обрамлення синтетичного проти реального світу погано починати.

Читати далі

ФБР стурбований шипом у підробленому використанні QR-коду
ФБР стурбований шипом у підробленому використанні QR-коду

Ці боксерські маленькі коди вибухнули популярність за останні роки, як маркетингові інструменти, так і як Savvy шляхи уникнення фізичного контакту у суспільних середовищах. Але ФБР попереджає, що люди виглядають двічі перед скануванням.

Астрономи стурбовані запуском Starlink V2
Астрономи стурбовані запуском Starlink V2

Астрономи все частіше побоюються, що планує розширити мегаконстеляцію Starlink буде майже неможливим спостерігати за небом із Землі, і вони просять Федеральну комісію з комунікацій (FCC) вступити.