Специализированные чипы не спасут нас от надвигающейся «стены ускорителя»
Поскольку замедлились улучшения производительности процессора, мы увидели, что полупроводниковая индустрия движется в сторону карт ускорителей, чтобы обеспечить значительно лучшие результаты. Nvidia была основным бенефициаром этого сдвига, но она является частью той же тенденции, стимулирующей исследования в области ускорителей нейронных сетей, ПЛИС и таких продуктов, как TPU Google. Эти ускорители в последние годы продемонстрировали колоссальное повышение производительности, что вселяет надежду на то, что они прокладывают путь вперед, даже когда закон Мора заканчивается. Новая статья предполагает, что это может быть менее верно, чем хотелось бы многим.
Доцент Принстонского университета по электротехнике Дэвид Венцлафф и его докторант Ади Фукс создали модель, которая позволяет им измерять этот уровень улучшения. Пара построила модель, используя характеристики 1612 процессоров и 1001 графических процессоров, реализованных в ряде узлов процесса и диапазонах мощности, чтобы количественно оценить выгоды, связанные с улучшениями узла процесса. Wentzlaff и Fuchs создали метрику для всех улучшений производительности, достигнутых благодаря усовершенствованиям CMOS (CMOS-Driven Return) по сравнению с теми достижениями, связанными с более эффективным выполнением рабочей нагрузки (Chip Specialization Return). Дополнительные сведения об инструменте, который они разработали для количественной оценки потенциала КМОП, получившего название Ранкин, доступны здесь.
То, что команда нашла, было отрезвляющим. Повышение производительности в специализированном кремнии в основном связано с количеством транзисторов, доступных на миллиметр кремния в долгосрочной перспективе, а также с усовершенствованиями в этих транзисторах, вводимых с каждым новым узлом процесса. Хуже того, существуют фундаментальные ограничения в отношении того, сколько производительности мы можем извлечь из улучшенной конструкции ускорителя без одновременного улучшения масштабирования CMOS.
Фраза «в долгосрочной перспективе» важна. Исследования Wentzlaff и Fuchs показывают, что производительность рабочей нагрузки значительно улучшается при первоначальном развертывании ускорителей. Со временем, когда методы оптимального ускорения заданной рабочей нагрузки исследуются и создаются лучшие практики, исследователи сходятся в выборе наиболее оптимальных подходов. Проблемы, которые, как правило, хорошо реагируют на ускорители, это те, которые четко определены, распараллеливаются (например, рабочие нагрузки графического процессора) и существуют в зрелой, хорошо изученной области. Но это также означает, что те же черты, которые делают проблему поддающейся ускорению, также ограничивают общее преимущество, полученное в долгосрочной перспективе от этого. Команда называет это «стеной акселератора».
Рынок высокопроизводительных вычислений, возможно, чувствовал это довольно давно. Еще в 2013 году мы написали историю о сложном пути к расширению для массовых суперкомпьютеров. Уже тогда TOP500 предсказывал, что ускорители обеспечат единовременный скачок в рейтинге производительности, но не улучшат показатели повышения производительности.
Но последствия этих выводов выходят за рамки рынка высокопроизводительных вычислений. Например, Венцлафф и Фукс, изучая графические процессоры, обнаружили, что прирост, относящийся к приросту не-CMOS, был довольно небольшим.
На рисунке 5 показан выигрыш в абсолютной производительности графического процессора (с учетом достижений CMOS), а также эти улучшения строго связаны с достижениями в CSR. О CSR можно смело думать как об улучшениях, которые остаются, когда достижения в базовой технологии CMOS исключаются из дизайна GPU.
Рисунок 6 делает отношения немного более ясными:
Снижение CSR не означает, что более поздний графический процессор медленнее в абсолютном выражении, чем более ранняя модель. По словам Ади Фукса:
CSR нормализует коэффициенты усиления «на потенциал CMOS», и этот «потенциал» учитывает количество транзисторов, а также различные скорости, энергоэффективность / площадь / энергоэффективность и т. Д. (Между поколениями CMOS). На рисунке 6 мы аппроксимировали сравнение комбинаций «яблоки с яблоками» комбинаций «архитектура + узел CMOS» путем триангуляции всех тестируемых приложений, совместно используемых между комбинациями, и применения транзитивных отношений между комбинациями, у которых недостаточно общих приложений (т. Е. Менее пяти). ,
Интуитивно понятный подход к этому анализу, который на рисунке 6 (a) как «то, что видят инженеры и менеджеры» и на рисунке 6 (b), это «то, что мы видим, когда отсеиваем потенциал CMOS». Я могу предположить и сказать, что вас больше волнует, превосходит ли ваш чип свой предшественник, чем из-за «лучших транзисторов» или «лучшего X» (где X - это разные части стека специализации в форме CSR).
FPGA и блоки аппаратного видеодекодера, которые исследователи исследовали, соответствуют этим фундаментальным характеристикам, даже если относительные ожидаемые выгоды со временем были больше или меньше из-за зрелости рынка. Те же характеристики, которые заставляют поле хорошо реагировать на ускорение, в конечном итоге ограничивают способность ускорителей повышать производительность. Из графических процессоров Fuchs и Wentzlaff пишут: «Хотя частота графических кадров графического процессора увеличилась в 16 раз, мы прогнозируем дальнейшее повышение производительности и энергоэффективности в 1,4–2,5 раза и 1,4–1,7 раза соответственно». AMD и Nvidia оставляют запас мощности для повышения производительности за счет улучшений CMOS, если это подтвердится.
Последствия этой работы значительны. Он предсказывает, что специфичные для предметной области архитектуры не будут продолжать приносить существенных улучшений в производительности после нарушения масштабирования закона Мура. Даже если разработчики микросхем могут сосредоточиться на улучшении производительности при фиксированном бюджете транзисторов, такие выгоды по сути ограничены уменьшением предельного дохода для хорошо понятых проблем.
Работа Венцлаффа и Фуча указывает на необходимость принципиально нового подхода к вычислительной технике. Архитектура Intel Meso является одной из потенциальных альтернатив. Fuchs и Wentzlaff также предложили использовать материалы, не относящиеся к CMOS, и другие виды специализации, выходящие за рамки CMOS, включая исследование использования энергонезависимых появляющихся массивов памяти в качестве ускорителя нагрузки. Вы можете прочитать больше об усилиях команды в этой области здесь.