H100 + memoria defectuosa = entrenamiento IA complicado

H100 + memoria defectuosa = entrenamiento IA complicado



En cuanto a la IA, hemos aprendido que el entrenamiento del Llama 3 de Meta no ha sido un camino tranquilo. De hecho, los H100 han sido la causa de numerosas caídas debido en parte a una memoria defectuosa. Además, cabe señalar que el entrenamiento de esta IA duró 54 días.

¡Los H100 de NVIDIA han dado mucha guerra a Meta!

Meta - NVIDIA H100

Para contar una breve historia, el entrenamiento de Llama 3 se realizó con un número astronómico de tarjetas gráficas. Aquí estamos hablando de un cluster de 16,384, todas H100 de NVIDIA, la tarjeta más potente actualmente en este sector.

Recordemos que hablamos de una tarjeta gráfica equipada con un GPU GH100 que lleva 80 GB de memoria HBM3. En cuanto al GPU, dependiendo de la variante utilizada, hablamos de 114 o 132 SM, es decir, un número de cuda core de 14,592 o 16,896 dependiendo si se trata de una tarjeta PCIe o SXM5.

En resumen, durante este entrenamiento que duró 54 días, hubo una gran cantidad de problemas. De hecho, estamos hablando de casi mil problemas. Nuestros colegas indican:

  • 419 fallos inesperados
  • 47 interrupciones programadas relacionadas con mantenimientos
  • 466 fallas

Esto nos deja un total de 885 errores relacionados con el hardware que se desglosan de la siguiente manera: un 30,1% relacionado con NVLink y un 17,2% debido a la memoria HBM3 de las tarjetas. Finalmente, esto deja espacio para solo dos errores relacionados con las CPU… ¡Dos errores en 54 días de entrenamiento, es increíble!