Титан V Nvidia обвиняется в возвращении неверных ответов в симуляциях

Титан V Nvidia обвиняется в возвращении неверных ответов в симуляциях

Nvidia долгое время занимала поул-позицию в вычислениях GPGPU, особенно в научных и высокопроизводительных приложениях. Долгосрочные инвестиции компании в CUDA и высокопроизводительные вычисления завоевали ряд пятен в суперкомпьютере TOP500 и способствовали росту линейки продуктов Tesla, включая графические процессоры, такие как Titan V $ 3000, видеокарта на основе Volta, которая охватывает между потребителем и научным продуктом. Но все может быть не так хорошо с Titan V - есть сообщения, что чип может производить разные результаты от запуска до запуска.

Это слово из Регистра, в котором написано:

Один из инженеров сказал The Register, что, когда он пытался запустить идентичные симуляции взаимодействия между белком и ферментом на картах Titan V от Nvidia, результаты варьировались. После повторных тестов на четырех из лучших графических процессоров он обнаружил, что две цифры дали числовые ошибки примерно в 10% случаев. Эти тесты должны давать одинаковые выходные значения каждый раз снова и снова. На предыдущих поколениях аппаратного обеспечения Nvidia это было в общем случае. На Титане V, не так, нам сказали.

В Reg также отмечается, что он также говорил с «ветераном отрасли», который предположил, что проблема может быть связана с проблемами с памятью HBM. Тот же самый человек отметил, что это может быть связано с проблемами с бортовой ОЗУ GPU и что Nvidia столкнулась с такой проблемой раньше и была вынуждена выпустить исправления для ее устранения.

Титан V Nvidia обвиняется в возвращении неверных ответов в симуляциях

В других местах другие сообщества отметили, что проблема может быть раздута. Параллельные вычисления с плавающей точкой не обязательно детерминированы, т. Е. Не дают автоматически одинаковые результаты каждый раз. Если порядок операций отличается от выполняемого для запуска, конечный результат также может быть другим.

Однако маловероятно, чтобы ученые и исследователи допустили известную проблему (недетерминированный выход в параллельных вычислениях FP) для существенной аппаратной проблемы. Источник Reg сообщил, что Titan V может давать неверные результаты примерно в 10% случаев, но не содержит подробностей о том, какие приложения были затронуты, зависит ли частота проблемы от приложения к приложению или может быть затронута изменением различных Настройки графического процессора.

Сейчас у нас больше вопросов, чем ответов. Проблема, если она существует, может быть адресована с помощью драйвера или изменения кода. Это может также отражать проблему с подсистемой памяти GPU, как это предполагает The Reg. Некоторые приложения HPC обновили свои собственные веб-сайты, чтобы указать, что они знают о потенциальной проблеме и еще не видели ее. Также возможно, что проблема ограничена несколькими картами и не указывает на общую проблему.

Что касается Nvidia, компания сообщила, что Reg знает об этой проблеме и пригласила всех, кто пострадал, связаться с самой Nvidia. Titan V на самом деле не позиционируется как игровой графический процессор, но на данный момент игры не влияют или не влияют.

Читать далее

AMD ответила на требования к безопасности CTS Labs, резолюции

AMD теперь откликнулась на первые результаты CTS Labs, выбив ноги из одной из защитных сил компании за свои собственные действия в этом процессе.

Mozilla вытаскивает объявления из Facebook в ответ на скандал с Cambridge Analytica

Mozilla приостанавливает свои рекламные отношения с Facebook, потому что, по его словам, Mozilla хочет, что «хорошо для Интернета и для людей». Это тонкий, но эффективный ожог Mozilla.

SpaceX не несет ответственности за потерю секретного спутника Zuma

Согласно новому правительственному отчету, это не было ошибкой SpaceX, что дорогостоящий сверхсекретный спутник-шпион не смог достичь орбиты в начале этого года. В этом виноват авиастроительный и долговременный правительственный подрядчик Нортроп Грумман.

Облачный TPU от Google соответствует требованиям Volta в обучении машинам при гораздо более низких ценах

Google и Nvidia предлагают конкурентоспособные продукты для машинного обучения, но Google изнашивает Nvidia по затратам, по крайней мере, в некоторых тестах.