IBM стремится снизить энергопотребление для обучения нейронной сети 100x

IBM стремится снизить энергопотребление для обучения нейронной сети 100x

С спешкой включить ИИ почти во все, есть ненасытный спрос на вычислительную и электрическую энергию, необходимую. В результате энергопотребляющие графические процессоры, которые используются сегодня, начинают уступать место более дешевым, более низким энергопотреблениям, на заказ, когда речь заходит о запущенных в отрасли специализированных нейронных сетях. Тем не менее, трудоемкий процесс обучения был медленнее, чтобы уступать новым архитектурам. IBM Research, которая принесла TrueNorth - один из первых настраиваемых микросхем для вывода данных, призвана сделать это снова с гибридной аналого-цифровой архитектурой микросхем, которая также может обучать полностью подключенные глубокие нейронные сети.

Нейронные сети были развязаны современным графическим процессором

Цифровые компьютерные процессоры почти всегда построены на компьютерной архитектуре фон Неймана и были с момента их изобретения. Данные и программы загружаются из некоторого типа памяти в процессор, и результаты записываются обратно. Ранние версии были ограничены одной операцией за раз, но, конечно, теперь у нас есть многоядерные процессоры, многопоточные ядра и другие методы для достижения некоторого параллелизма. Напротив, наши мозги, которые были оригинальным источником вдохновения для нейронных сетей, имеют миллиарды нейронов, которые все способны делать что-то в одно и то же время. Хотя они не все работают над одной и той же задачей, по-прежнему может наблюдаться огромное количество параллельных операций, которые происходят постоянно в наших умах.

Это общее несоответствие в архитектуре является одной из причин, по которым нейронные сети барабанили десятилетиями после их изобретения. Недостаточно производительности даже на самых быстрых компьютерах, чтобы сделать их реальностью. Изобретение современного графического процессора изменило это. Благодаря наличию сотен или тысяч очень высокоскоростных относительно простых ядер, связанных с быстрой памятью, стало практично обучать и запускать типы нейронных сетей, которые имеют много уровней (называемых Deep Neural Networks или DNN) и могут быть использованы для решения реальных проблем.

Пользовательский кремний для выводов теперь проверенная технология

IBM стремится снизить энергопотребление для обучения нейронной сети 100x

Микросхема TrueNorth от IBM, напротив, построена на более непосредственную модель человеческого мозга, имитируя миллион нейронов с использованием специализированных схем. Он обеспечивает впечатляющую экономию энергии для проведения выводов, но не подходит для важной задачи обучения сетей. Теперь исследователи IBM считают, что они нашли способ увеличить энергосбережение при использовании нейроморфных (мозговых) схем, подобных тем, которые были найдены в TrueNorth, наряду с некоторыми идеями, заимствованными из резистивных вычислений, для достижения значительной экономии энергии в сетевом обучении.

Резистивные вычисления могут вернуться как эффективная платформа ИИ

Одним из крупнейших узких мест традиционных компьютеров, когда они используются для работы нейронных сетей, является чтение и запись данных. В частности, каждый узел (или нейрон) в нейронной сети должен хранить (во время обучения) и извлекать (во время обучения и вывода) много весов. Даже с быстрым ОЗУ GPU, извлечение их является узким местом. Таким образом, дизайнеры применили технологию, называемую резистивными вычислениями, чтобы найти способы хранения весов прямо в аналоговой схеме, которая реализует нейрон. Они используют тот факт, что нейроны не должны быть очень точными, поэтому близко часто бывает достаточно хорошо. Когда мы писали о работе IBM в этой области в 2016 году, она в основном была направлена ​​на ускорение вывода. Это было из-за некоторых проблем, связанных с попыткой использовать его для обучения. Теперь одна группа в IBM думает, что они нашли решение этих проблем.

Архитектура перекладины является модульной, а также обеспечивает как прямое, так и обратное распространение
Архитектура перекладины является модульной, а также обеспечивает как прямое, так и обратное распространение

Гибридная архитектура нацелена на снижение мощности AI-Training на 100x

Команда IBM, пишущая в журнале Nature, разработала гибридный аналоговый плюс цифровой дизайн, целью которого является устранение недостатков резистивных вычислений для обучения. Во-первых, они реализовали имитированный чип, который использует архитектуру перекладины, что позволяет проводить массовый параллельный расчет выхода нейрона на основе суммы всех взвешенных входов. По сути, это аппаратная реализация математической матрицы. Каждый маленький кросс-блок в чипе может быть подключен различными способами, поэтому он может моделировать довольно глубокие или широкие сети до емкости чипа - 209 400 синапсов в текущей симуляционной версии команды.

Но это не делает ничего хорошего, если все эти синапсы не могут получить нужные им данные достаточно быстро. До сих пор память, используемая в этом типе экспериментального AI-чипа, была либо очень высокоскоростной, но энергозависимой с ограниченной точностью или динамическим диапазоном - или более медленной памятью смены фаз (PCM) - с более низкой производительностью записи. В предлагаемом проекте команды используется модель, подобная мозгу, для обеспечения каждой из этих потребностей: путем разделения краткосрочного и долгосрочного хранения для каждого нейрона. Данные, необходимые для расчета, хранятся в энергозависимой, но очень быстрой, кратковременной аналоговой памяти. Это включает в себя все веса, необходимые для каждого синапса каждого нейрона. Во время обучения весы периодически выгружаются в постоянный PCM, который также имеет большую емкость. Затем кратковременные веса сбрасываются, поэтому ограниченный диапазон аналоговой памяти не переполняется.

Концепция довольно проста, но реализация не является. Физика устройств сильно влияет на аналоговые схемы, поэтому исследователи предложили серию методов, в том числе периодически применяя разности напряжений и полярности подстановки, чтобы свести к минимуму ошибки, которые могут закрасться в систему во время продолжительной работы.

В моделировании чип конкурирует с программным обеспечением На 1/100-й мощности

IBM стремится снизить энергопотребление для обучения нейронной сети 100x

Однако, поскольку чип только способен работать с полностью связанными слоями, такими как найденные на более высоких уровнях большинства глубоких моделей, существуют ограничения на то, что он может сделать. Он может запускать MNIST (классический разряд распознавания цифр), по существу, неавтоматизированный, но для задач распознавания изображений, таких как CIFAR, он должен иметь предварительно подготовленную модель для уровней распознавания признаков. К счастью, этот тип обучения перевода (с использованием предварительно подготовленной модели для уровней выделения признаков) стал довольно распространенным явлением, поэтому он не должен быть большим камнем преткновения для нового подхода.

Гибридные чипы будущего для нейронных сетей?

Столь же впечатляющие, как и результаты этих исследований, они приходят с множеством очень специфичных настроек устройства и компромиссов. Сам по себе мне трудно увидеть, что все это специализированное становится основным. То, что я думаю, важно, и делает это и другие исследования резистивных вычислений, о которых стоит писать, заключается в том, что у нас есть доказательство существования конечного нейроморфного компьютера - мозга - и насколько он эффективен и эффективен. Поэтому имеет смысл продолжать искать способы, которые мы можем извлечь из этого, и включить эти уроки в наши вычислительные архитектуры для ИИ. Не удивляйтесь, если когда-нибудь ваш GPU будет иметь гибридные ядра.

[Изображение: Nature Magazine]

Читать далее

TDP Intel для настольных ПК больше не используется для прогнозирования энергопотребления процессора
TDP Intel для настольных ПК больше не используется для прогнозирования энергопотребления процессора

TDP процессоров Intel более высокого класса для настольных ПК больше не сообщает ничего полезного о потребляемой мощности процессоров под нагрузкой.

8-ядерное озеро Tiger In Intel наливает на производительность, энергопотребление
8-ядерное озеро Tiger In Intel наливает на производительность, энергопотребление

Отзывы о последних восьми ядро ​​Tiger Tiger Lake Tiger Lake. Новые процессоры определенно повышают производительность, но за счет более высокого энергопотребления.

Ryzen Mobile 6000 AMD подчеркивает эффективность энергопотребления над сырой производительностью
Ryzen Mobile 6000 AMD подчеркивает эффективность энергопотребления над сырой производительностью

Начал новый Ryzen 9 6900HS AMD. CPU не так быстро, как лучший озеро Intel Alder, но он выигрывает следы для эффективности мощности и общей производительности.

AMD инженер подтверждает, что энергопотребление RDNA3 будет увеличиваться
AMD инженер подтверждает, что энергопотребление RDNA3 будет увеличиваться

Это тенденция, сказал парень из AMD и ветеран чиплета.