Los investigadores de Stanford publicaron los resultados de Dawn Benchmark and Competition y contienen algunos números interesantes que muestran la diferencia que la optimización puede hacer en los tiempos y costos de capacitación.
Curiosamente, los resultados parecen mostrar que no hay un único ganador completo cuando se trata de cargas de trabajo de inteligencia artificial, de hecho, el resultado es una salpicadura de logros entre Intel Xeon, Google TPU v2 y los procesadores gráficos de NVIDIA.
La configuración solo de Intel Xeon toma la latencia de inferencia y el trono de eficiencia de costos
Si bien recomendaría a cualquier persona seriamente interesada en los resultados que se dirija a la página de resultados y la vea en su totalidad, nos hemos tomado la libertad de seleccionar algunos de los bits de jucier y publicarlos a continuación. La comunidad pudo lograr algunas proezas verdaderamente impresionantes de optimización del rendimiento y rentabilidad. Si anteriormente le tomó más de 10 días entrenar a ImageNet, ahora se puede hacer en menos de 31 minutos utilizando la mitad de un pod Google TPU v2 que muestra una velocidad de hasta 477x.
El campeón de inferencia y costo, por otro lado, resultó ser procesadores escalables Intel Xeon (sin GPU) que pudieron procesar 10.000 imágenes por el mero precio de $ 0.02 y una latencia de 9.96 milisegundos. Los investigadores usaban un Intel Optimized Caffe y la competencia más cercana era usar una GPU NVIDIA K80 junto con 4 CPU a un costo de $ 0.07 y una latencia de 29.4 ms. Huelga decir que este es un logro bastante impresionante teniendo en cuenta que puede obtener un rendimiento de factor miulti y una actualización de costos usando solo CPU.
Team from fast.AI logra resultados más rápidos que los anunciados por NVIDIA con 8x V100s y establece el nuevo registro CIFAR10
Otro punto a destacar del evento fue el equipo de fast.AI que utilizó un método innovador para reducir drásticamente los tiempos de entrenamiento y el uso de 8x GPU V100 establece un nuevo récord de velocidad terrestre para el entrenamiento CIFAR10. El enfoque inicialmente alimenta la red con imágenes de baja resolución para reducir el tiempo de procesamiento al inicio y aumenta gradualmente la resolución. Este método reduce los tiempos de entrenamiento sin comprometer la precisión final del modelo.
De hecho, el equipo rapid.AI fue capaz de lograr una aceleración de 52x usando NVIDIA V100s y redujo el tiempo de entrenamiento de 2 horas 31 minutos a 2 minutos y 54 segundos. Al hacerlo, también lograron reducir el costo de $ 8.35 a $ 0.26. De hecho, incluso demostraron que se puede capacitar a un modelo en CIFAR10 en un período de tiempo razonable de forma gratuita utilizando nada más que Google Colaborator.
Otros aspectos destacados curados de la primera iteración de DAWNBench v1:
-
Para la inferencia de ImageNet, Intel presentó el mejor resultado tanto en costo como en latencia. Utilizando una versión optimizada de Intel de Caffe en instancias AWS de alto rendimiento, redujeron la latencia de la imagen a 9.96 milisegundos y procesaron 10.000 imágenes por $ 0.02.
-
ResNet50 ahora se puede entrenar en ImageNet en tan solo 30 minutos con puntos de control y 24 minutos sin puntos de control utilizando la mitad de un Google TPUv2 Pod, ¡lo que representa una velocidad de 477x!
-
La presentación más barata para ResNet50 en ImageNet funcionó en 8 horas 53 minutos para un total de $58.53 en una máquina Google TPUv2 con TensorFlow 1.8.0-rc1, que representa una mejora de costos de 19 veces sobre nuestra mejor entrada de semillas que utilizó 8 GPU Nvidia K80 en AWS.
-
¡Otros proveedores de hardware y nube no se quedaron atrás! Utilizando PyTorchcon 8 GPU Nivida V100 en AWS, fast.ai pudo entrenar a ResNet50 en 2 horas y 58 minutos por un total de $72.50 con una técnica progresiva de cambio de tamaño de «Crecimiento progresivo de GAN para mejorar la calidad, la estabilidad y la variación»y » Redes Residuales Profundas Mejoradas para Súper Resolución de Imagen Única «que aumentó la resolución de las imágenes durante el entrenamiento para obtener un mayor rendimiento (imágenes por segundo) al inicio sin pérdida en la precisión final.
-
Con solo CPU, Intel usó 128 instancias AWS con 36 núcleos cada una para capacitar a ImageNet en 3 horas y 26 minutos.
-
ResNet164 de «Identity Mappings in Deep Residual Networks», que se entrenó en 2 horas y 31 minutos en una Nvidia P100, el tiempo de entrenamiento se redujo a 2 minutos y 54 segundos gracias a fast.ai y su equipo de estudiantes . Usando una arquitectura Wide ResNet personalizada y 8 Nvidia V100s, lograron una velocidad 52x.
-
El equipo de fast.ai también redujo el costo de entrenamiento de $ 8.35 a $ 0.26. Yendo un poco más allá, demostraron que se puede capacitar a un modelo en CIFAR10 en un período razonable de tiempo de forma gratuita con Google Colaboratory.
a través de DAWNBench v1, Stanford