Спеціалізовані фішки не збережуть нас від непередбачуваної «стіни прискорювача»
Поліпшення продуктивності процесора уповільнилося, ми спостерігали, як напівпровідникова промисловість рухається в напрямку прискорювальних карт, щоб забезпечити значно кращі результати. Nvidia була головним бенефіціаром цього зсуву, але вона є частиною однієї й тієї ж тенденції, яка спрямована на дослідження нейромережевих прискорювачів, FPGA і продуктів, таких як Google TPU. Ці прискорювачі протягом останніх років принесли величезний приріст продуктивності, сподіваючись, що вони представлять шлях вперед, навіть якщо закінчиться масштабування закону Мура. Новий документ свідчить, що це може бути менше, ніж багато хто хотів би.
Принстонський університет доцент кафедри електротехніки Давид Венцлафф і його докторант Аді Фукс створили модель, яка дозволяє їм вимірювати цей рівень поліпшення. Пара побудувала модель з використанням характеристик 1612 процесорів і 1,001 графічних процесора, реалізованих у різних процесуальних вузлах та діапазонах потужностей, для кількісного визначення прибутків, які можна віднести до поліпшень вузла процесу. Wentzlaff і Fuchs створили метрику для всіх поліпшень продуктивності, отриманих за допомогою досягнень CMOS (CMOS-Driven Return), порівняно з цими прибутками, пов'язаними з більш ефективним виконанням робочого навантаження (Chip Specialization Return). Більше даних про інструмент, який вони розробили, щоб допомогти у визначенні потенціалу CMOS, названого Rankine, можна знайти тут.
Те, що команда знайшла, протверезило. Посилення продуктивності в спеціалізованому кремнії принципово пов'язане з кількістю транзисторів, доступних на міліметр кремнію протягом тривалого періоду, а також поліпшенням транзисторів, що вводяться з кожним новим вузлом процесу. Гірше того, існують фундаментальні обмеження щодо того, наскільки продуктивність ми можемо витягти з поліпшеної конструкції прискорювачів без одночасного покращення масштабування CMOS.
Дуже важливим є словосполучення «в довгостроковій перспективі». Дослідження Wentzlaff та Fuchs показують, що невибачливо, щоб продуктивність робочого навантаження різко покращувалася, коли спочатку розгортаються прискорювачі. З часом, у міру вивчення методів оптимального прискорення заданого навантаження та встановлення найкращих практик, дослідники сходяться на найбільш оптимальних можливих підходах. Проблеми, які схильні добре реагувати на прискорювачі, це ті, які добре визначені, паралелізуються (думаю, робочі навантаження GPU), і існують у зрілому, добре вивченому домені. Але це також означає, що ті ж риси, які роблять проблему підданим прискоренню, також обмежують загальну вигоду, отриману в довгостроковій перспективі від цього. Команда називає це «стіною прискорювача».
Ринок HPC мав певний сенс цього протягом досить довгого часу. Ще в 2013 році ми написали розповідь про важкий шлях до ексакалу для суперкомп'ютерів. Ще тоді, TOP500 передбачав, що прискорювачі дадуть одноразовий стрибок у рейтингах продуктивності, але не покращиться швидкість підвищення продуктивності.
Але наслідки цих висновків виходять за межі ринку HPC. Розглядаючи графічні процесори, наприклад, Wentzlaff і Fuchs виявили, що прибутки, які спеціально обумовлені невикористанням CMOS, були досить малими.
Рисунок 5 показує прибутки в абсолютній продуктивності GPU (разом з авансами CMOS) і ті вдосконалення, які суворо пов'язані з досягненнями у сфері КСВ. КСВ можна подумати як про покращення, які залишилися, коли досягнуті успіхи в технології CMOS, які вийшли з дизайну GPU.
Рисунок 6 робить відносини трохи більш зрозумілими:
Зниження КСВ не означає, що пізніший GPU повільніше, в абсолютному виразі, ніж попередня модель. За словами Аді Фукс:
КСВ нормалізує прибутки «на потенціал КМОП», а «потенціал» враховує підрахунки транзисторів, а також різні швидкості, потужність / площа / енергетична ефективність і т.д. (у поколіннях КМОП). На рис. 6 ми наблизили порівняння яблук до яблук комбінацій «архітектура + вузол КМОП», тріангулюючи всі додатки, які використовують порівняння між комбінаціями, і застосовуючи транзитивні відносини між комбінаціями, які не мають достатньої кількості програм (тобто менше п'яти) .
Інтуїтивно зрозумілий підхід до цього аналізу, що фігура 6 (а) як «те, що бачать інженери та менеджери» та малюнок 6 (b), - це «те, що ми бачимо, коли ми виключаємо потенціал CMOS». Я можу спекулювати і сказати, що ви більше дбаєте про те, чи перевершує ваш чіп свого попередника, чим це пов'язано з «кращими транзисторами» або «кращими X» (де X - різні частини стеку спеціалізації у формі CSR).
FPGA і апаратні блоки відеодекодерів, які дослідники досліджували, відповідали цим фундаментальним характеристикам, навіть якщо відносні очікувані прибутки з часом були більшими або меншими внаслідок зрілості ринку. Ті ж характеристики, які роблять поле добре реагують на прискорення, в кінцевому рахунку стримують здатність прискорювачів підвищувати продуктивність. З графічних процесорів, Fuchs і Wentzlaff пишуть: «Хоча графічна частота графічних процесорів покращилася на 16x, ми проектуємо подальші показники ефективності та підвищення енергоефективності 1,4 - 2,5x і 1,4 - 1,7x відповідно». для AMD і Nvidia залишилося вільне місце для підвищення продуктивності за допомогою спеціальних поліпшень CMOS, якщо це буде підтверджено.
Наслідки цієї роботи є значними. Вона передбачає, що специфічні для даної галузі архітектури не продовжуватимуть значно покращувати продуктивність після того, як буде розбито масштабування закону Мура. Навіть якщо дизайнери мікросхем можуть більш щільно зосередитися на підвищенні продуктивності в стаціонарних бюджетах транзисторів, такі досягнення є суттєво обмеженими через зменшення граничних прибутків для добре зрозумілих проблем.
Робота Вентцлафа та Фука вказує на необхідність принципово нового підходу до обчислень. Мезо-архітектура Intel є однією з потенційних альтернатив. Фукс і Венцлафф також запропонували використовувати не-CMOS матеріали та інші типи спеціалізації за межами CMOS, включаючи вивчення використання енергонезалежних нових масивів пам'яті як типу прискорювача навантаження. Докладніше про зусилля команди в цьому домені ви можете прочитати тут.
Читати далі
Як хвиля Макімото пояснює цунамі спеціалізованих процесорів AI, орієнтованих на ринок
Зараз у AI величезну кількість робіт, багато спеціалізованих процесорів орієнтовані на ринок, і назва для тенденції, яка веде все до нас.