19 días y cien mil chips, el milagro de Musk para que su IA comience el entrenamiento más potente del mundo
Jensen Huang, CEO de Nvidia ha revelado los secretos del hito que ha conseguido el magnate para poner a entrenar a Grok
Elon Musk tampoco se quiere quedar atrás en su carrera por la IA. Después de liderar el mercado de coches eléctricos y de revolucionar los viajes al espacio, el magnate quiere conquistar la inteligencia artificial.
El problema es que no hay tiempo. ChatGPT lleva apenas dos años en nuestras vidas y los modelos que han ido apareciendo no paran de mejorar y ofrecer nuevas prestaciones.
Musk es dueño de xAI, su propia empresa de inteligencia artificial, pero necesitaba una infraestructura tecnológica de última generación para llevar sus proyectos al siguiente nivel. El pasado mes de julio, xAI presentó oficialmente el «clúster de entrenamiento IA más potente del mundo», una plataforma que cuenta con 100.000 GPU H100 de Nvidia que Musk se ha llevado a Memphis.
Proceso titánico
Una entrevista al CEO de Nvidia, Jensen Huang en el pódcast BG2 reveló que la creación de este supercomputador fue un proceso titánico que el equipo de xAI completó en tan solo 19 días, desde la fase conceptual hasta la integración final de las unidades de procesamiento gráfico.
El ejecutivo de Nvidia destacó que, además de ensamblar las GPU, fue necesario poner en marcha un avanzado sistema de refrigeración líquida y una compleja infraestructura de alimentación eléctrica para garantizar el funcionamiento óptimo de los chips. «Solo hay una persona en el mundo que podría hacer eso», comentó Huang, refiriéndose a Musk.
Solo hay una persona en el mundo que podría hacer esoCEO de Nvidia
Según las estimaciones de Huang, construir un supercomputador de esta escala normalmente llevaría alrededor de cuatro años. De ese tiempo, tres años se dedicarían a la planificación, mientras que el cuarto año se reservaría para la recepción, instalación y pruebas de los equipos. Este proceso es extremadamente complejo, ya que un centro de datos diseñado para soportar enormes cargas de trabajo requiere de ajustes constantes para la optimización y la corrección de errores.
Solución escalable
El clúster de xAI representa una innovación sin precedentes. Huang reveló que nunca antes se había logrado integrar 100.000 GPU H100, y que es poco probable que otra empresa alcance un hito similar en el corto plazo. Este clúster, equipado con tecnología de acceso directo de memoria remota (RDMA), permite una transferencia de datos rápida y eficiente, lo que mejora significativamente el rendimiento. Además, se trata de una solución escalable, lo que significa que podrá ampliarse en el futuro, posiblemente con la próxima generación de GPU H200.
La historia de Huang y Musk viene de 2016 cuando Nvidia donó una supercomputadora a OpenIA, empresa cofundada por Musk. «Le entregué a Musk la primera supercomputadora de inteligencia artificial que jamás haya fabricado el mundo», dijo Huang en The New York Times. Construir la supercomputadora de 35.000 piezas y 70 libras «nos llevó cinco años lograrlo. Se llama DGX y hoy está en todas partes del mundo».