Los investigadores de Stanford publicaron los resultados de Dawn Benchmark and Competition y contienen algunos números interesantes que muestran la diferencia que la optimización puede hacer en los tiempos y costos de capacitación.

Curiosamente, los resultados parecen mostrar que no hay un único ganador completo cuando se trata de cargas de trabajo de inteligencia artificial, de hecho, el resultado es una salpicadura de logros entre Intel Xeon, Google TPU v2 y los procesadores gráficos de NVIDIA.

La configuración solo de Intel Xeon toma la latencia de inferencia y el trono de eficiencia de costos

Si bien recomendaría a cualquier persona seriamente interesada en los resultados que se dirija a la página de resultados y la vea en su totalidad, nos hemos tomado la libertad de seleccionar algunos de los bits de jucier y publicarlos a continuación. La comunidad pudo lograr algunas proezas verdaderamente impresionantes de optimización del rendimiento y rentabilidad. Si anteriormente le tomó más de 10 días entrenar a ImageNet, ahora se puede hacer en menos de 31 minutos utilizando la mitad de un pod Google TPU v2 que muestra una velocidad de hasta 477x.

El campeón de inferencia y costo, por otro lado, resultó ser procesadores escalables Intel Xeon (sin GPU) que pudieron procesar 10.000 imágenes por el mero precio de $ 0.02 y una latencia de 9.96 milisegundos. Los investigadores usaban un Intel Optimized Caffe y la competencia más cercana era usar una GPU NVIDIA K80 junto con 4 CPU a un costo de $ 0.07 y una latencia de 29.4 ms. Huelga decir que este es un logro bastante impresionante teniendo en cuenta que puede obtener un rendimiento de factor miulti y una actualización de costos usando solo CPU.

Team from fast.AI logra resultados más rápidos que los anunciados por NVIDIA con 8x V100s y establece el nuevo registro CIFAR10

Otro punto a destacar del evento fue el equipo de fast.AI que utilizó un método innovador para reducir drásticamente los tiempos de entrenamiento y el uso de 8x GPU V100 establece un nuevo récord de velocidad terrestre para el entrenamiento CIFAR10. El enfoque inicialmente alimenta la red con imágenes de baja resolución para reducir el tiempo de procesamiento al inicio y aumenta gradualmente la resolución. Este método reduce los tiempos de entrenamiento sin comprometer la precisión final del modelo.

De hecho, el equipo rapid.AI fue capaz de lograr una aceleración de 52x usando NVIDIA V100s y redujo el tiempo de entrenamiento de 2 horas 31 minutos a 2 minutos y 54 segundos. Al hacerlo, también lograron reducir el costo de $ 8.35 a $ 0.26. De hecho, incluso demostraron que se puede capacitar a un modelo en CIFAR10 en un período de tiempo razonable de forma gratuita utilizando nada más que Google Colaborator.

Otros aspectos destacados curados de la primera iteración de DAWNBench v1: