La GTX Titan V de $3,000 orientada al prosumidor de NVIDIA padece, según los informes, un error de memoria que causa resultados erróneos en las cargas de trabajo de simulación científica. Basado en la última arquitectura Volta de la compañía, el Titan V está impulsado por la GPU más grande jamás fabricada por NVIDIA, el transistor GV100 de 815 mm² y 21.100 millones.

NVIDIA Titan V produce errores en simulaciones científicas

El Titan V, que se introdujo a fines del año pasado, es la tarjeta gráfica discreta más poderosa del mercado actual. También es el Titan más caro que hemos visto emitir NVIDIA. Según un ingeniero que ha hablado con The Register, el Titan V es incapaz de producir resultados de manera confiable bajo condiciones específicas. Se dice que la tarjeta sufre de un error precario que causa resultados diferentes mientras ejecuta los mismos cálculos repetidamente.

Uno de los ejemplos mencionados para tal caso es cuando se ejecutan simulaciones idénticas de una interacción entre una proteína y una enzima. Se supone que estos cálculos producen resultados idénticos todo el tiempo. Sin embargo, dos de cada cuatro tarjetas Titan V que el ingeniero había probado emitirían errores al ejecutar la misma simulación.

Problema que se cree que se debe a un defecto en el diseño de la memoria

Se cree que este problema se debe a una falla en el diseño de la memoria. De acuerdo con un veterano de la industria sin nombre que ha hablado con The Register, NVIDIA puede estar empujando el hardware de Titan V a sus límites, o tal vez incluso más allá del borde. Y a diferencia de las tarjetas gráficas de estación de trabajo, como la línea Quadro y Radeon Pro de AMD, NVIDIA ha desactivado la memoria de corrección de errores en el Titan V. Estos dos problemas combinados, cree el veterano, podrían ser la razón por la cual el Titán V sufre errores de lectura de memoria al tratar conjuntos de datos tan grandes en la memoria.

Los científicos confían en el hardware para producir datos confiables, de lo contrario, simplemente no pueden confiar en los resultados de sus pruebas. Basta decir que estos tipos de errores hacen que el Titán V sea inútil para este tipo de tareas donde la precisión es un requisito clave. Una calculadora que no puede sumar es inútil, como tal. Si los científicos no pueden confiar en los resultados de un Titán V, no pueden permitirse ejecutar simulaciones sobre él.

NVIDIA ofreció el siguiente comentario al Registro

«Todas nuestras GPU se agregan correctamente. Nuestra línea Tesla, que tiene ECC [memoria de código de corrección de errores], está diseñada para este tipo de simulaciones a gran escala y alto rendimiento. Cualquier persona que experimente problemas debe ponerse en contacto con support @ nvidia.com «.