Titan V Nvidia звинувачують у поверненні помилкових відповідей у ​​симуляціях

Titan V Nvidia звинувачують у поверненні помилкових відповідей у ​​симуляціях

Nvidia вже давно займає позиції полюсів в обчисленні GPGPU, зокрема в наукових і HPC додатках. Довгострокові інвестиції компанії в CUDA та високопродуктивні обчислення виграли в цьому ряду місць у суперкомп'ютерному TOP500 і підштовхнули зростання своєї лінійки продуктів Tesla, включаючи графічні процесори, такі як 3 тисячі доларів Титан V, відеокарта на базі Volta, яка переважає лінія між споживачем та науковим продуктом. Але все може не бути добре з Titan V - Є повідомлення про те, що мікросхема може дати різні результати від бігу до бігу.

Це слово з реєстру, який пише:

Один інженер повідомив The Register, що коли він намагався запустити однакове моделювання взаємодії між білком та ферментом на картах Titan V VV, результати різноманітні. Після багаторазових тестів на чотирьох графічних інтерфейсах топ-лінії, він виявив, що два дали числові помилки приблизно в 10 відсотків часу. Ці випробування повинні створювати однакові вихідні значення кожного разу знову і знову. На попередніх поколіннях апаратних засобів Nvidia це було так. На Титані V, не так, нам сказали.

Регу також зазначає, що він також звернувся до "ветерану галузі", який припустив, що проблема може бути пов'язана з проблемами з пам'яттю HBM. Ця особа зазначила, що це може бути пов'язано з проблемами обміну оперативною пам'яттю графічного процесора, і що Nvidia зіткнувся з подібною проблемою раніше і змушений був випускати патчі для вирішення цього питання.

Titan V Nvidia звинувачують у поверненні помилкових відповідей у ​​симуляціях

В іншому місці інші громади зазначили, що проблема може бути надміром. Паралельні обчислення з плаваючою точкою не обов'язково детерміністичні, тобто автоматично не дають однакових результатів кожного разу. Якщо порядок операцій відрізняється від запуску, то кінцевий результат також може бути різним.

Проте, маловероятно, що вчені та дослідники помилилися б відомі проблеми (недетермінований випуск за допомогою паралельних обчислень FP) для значної апаратної проблеми. Джерело Reg повідомило, що Titan V може дати неправильні результати приблизно в 10 відсотків часу, але не надав докладну інформацію про те, на які програми було зачеплено, чи частота проблеми варіюється від застосування до програми, чи може це вплинути на зміну різних Налаштування GPU.

Зараз ми маємо більше питань, ніж відповідей. Проблема, якщо така існує, може бути адресною через драйвер або зміну коду. Це також може відображати проблему з підсистемою пам'яті GPU, як розповідає The Reg. Деякі програми HPC оновили власні веб-сайти, щоб повідомити, що вони знають про потенційну проблему, і ще не бачили. Можливо також, що проблема обмежена кількома картами, а не означає загальну проблему.

Що стосується Nvidia, компанія повідомила Регу, що вона усвідомлює цю проблему, і запросив когось, котрий постраждав, зв'язатися з Nvidia. Титан V насправді не позиціонується як ігровий графічний процесор, але на даний момент ігри, на мій погляд, не впливають на неї.