Por Sebastian Moss, redactor de centros de datos, editor en jefe y editor de la publicación de infraestructura digital más grande del mundo, DCD.
El reciente drama de OpenAI ha dejado algo muy claro: Microsoft tiene el control.
En la startup de IA más prometedora del mundo, el personal sabe que tienen un trabajo y recursos en Microsoft si alguna vez los necesitan. Incluso si se quedan, trabajarán en el hardware de la nube de Microsoft, desarrollando productos para el software de la nube de Microsoft, que contribuyan a los resultados de Microsoft, todo para una empresa de propiedad parcial de Microsoft.
El golpe y la revuelta en OpenAI demostraron que la gran mayoría del personal de la compañía prefiere este acuerdo a uno de independencia sin ánimo de lucro, lo que marca otra victoria más para el patrocinador con sede en Redmond.
Pero OpenAI es solo una pequeña parte de la historia de Microsoft y de cómo se ha reinventado como la empresa más interesante en el espacio de la nube y los centros de datos.
La semana pasada, la compañía reveló que está operando la tercera supercomputadora más poderosa del mundo (excepto algunos sistemas chinos secretos). El sistema Eagle irrumpió en el ranking Top500 como el superordenador más rápido jamás operado por una corporación privada.
El sistema de 561 petaflops, diseñado para entrenar modelos grandes de lenguaje para IA generativa, está construido a partir de máquinas virtuales ND H100 v5 disponibles públicamente en una única estructura de InfiniBand de 400G NDR.
"Eagle es probablemente la instalación más grande de H100 y NDR InfiniBand en el planeta", escribió en un blog personal el investigador de supercomputación de Microsoft y ex empleado de NERSC, Glenn K. Lockwood.
"Esto no sólo indica que es financieramente viable crear una supercomputadora líder para I+D que genere ganancias, sino que la industria ahora está dispuesta a asumir el alto riesgo de implementar sistemas que utilizan tecnología no probada si esto puede darles una ventaja de ser los primeros en actuar."
Microsoft ha realizado una serie de contrataciones de informática de alto rendimiento de alto perfil en los últimos años: junto con Lockwood, ha contratado al CTO de Cray, Steve Scott, y al jefe de los esfuerzos de exaescala de Cray, el Dr. Dan Ernst, entre otros. De las 50 supercomputadoras más importantes, seis son operadas por Microsoft.
"La supercomputación es la próxima ola de hiperescala, en cierto sentido, y tienes que repensar completamente tus procesos, ya sea cómo adquirir capacidad, cómo validarla, escalarla y repararla. ", dijo a DCD Nidhi Chappell, gerente general de Microsoft para Azure AI, a principios de este año.
La compañía hizo esta apuesta antes de la actual ola de IA generativa, lo que le otorga una ventaja clave. "No se construye la infraestructura de ChatGPT desde cero", continuó Chappell.
“Tenemos una historia de construcción de supercomputadoras que nos permitió construir la próxima generación. Y hubo muchos aprendizajes sobre la infraestructura que utilizamos para ChatGPT, sobre cómo pasar de un hyperscaler a un hyperscaler de supercomputación”.
Microsoft continuará construyendo enormes supercomputadoras basadas en GPU Nvidia y para el próximo año está planeando implementar la GPU MI300X de AMD a escala.
"Con solo mirar la hoja de ruta en la que estoy trabajando ahora, es sorprendente, la escala no tiene precedentes", dijo Chappell. "Y es completamente necesario".
Apenas un día después de que la compañía presentara Eagle, también dio a conocer los frutos de otro proyecto de larga duración: Azure Maia 100. El acelerador, el primero de una nueva familia de chips de IA internos, cuenta con puntos de referencia impresionantes y puede ayudar a ofrecer al menos algo de competencia a Nvidia.
"Los FLOPS de este chip aplastan por completo al TPUv5 (Viperfish) de Google, así como a los chips Trainium/Inferentia2 de Amazon. Sorprendentemente, ni siquiera está tan lejos del H100 de Nvidia y el MI300X de AMD en ese departamento", escribieron Dylan Patel y Myron Xie de SemiAnalysis. Sin embargo, "la especificación más relevante aquí es el ancho de banda de memoria de 1,6 TB/s. Esto todavía aplasta a Trainium/Inferentia2, pero es menos ancho de banda de memoria que incluso el TPUv5, y mucho menos el H100 y el MI300X".
Dado que es un producto de primera generación, funciona mucho mejor de lo que muchos esperaban.
Pero el chip es sólo una parte del paquete. En su anuncio, Microsoft quiso resaltar que su verdadera ventaja reside en la amplitud de sus operaciones.
"Microsoft está construyendo la infraestructura para respaldar la innovación en IA y estamos reinventando cada aspecto de nuestros centros de datos para satisfacer las necesidades de nuestros clientes", dijo Scott Guthrie, vicepresidente ejecutivo del Grupo de Nube e IA de Microsoft.
"A la escala en la que operamos, es importante para nosotros optimizar e integrar cada capa de la infraestructura para maximizar el rendimiento, diversificar nuestra cadena de suministro y brindar a los clientes opciones de infraestructura".
El chip solo estará disponible en un bastidor personalizado refrigerado por líquido, y Microsoft muestra su voluntad de romper con las convenciones y desarrollar bastidores inusualmente anchos.
Todo esto lo está haciendo a escala de producción.
Sólo en las últimas cuatro semanas, Microsoft adquirió 235 hectáreas a las afueras de Columbus, Ohio, junto con 416 hectáreas adicionales en su campus de Mount Pleasant en Wisconsin. También solicitó un nuevo campus de centro de datos en Des Moines, Iowa, y dijo que gastará 500 millones de dólares en expansión en el este de Canadá, 1.000 millones de dólares en Georgia y 5.000 millones de dólares australianos en Australia.
También lanzó silenciosamente su región de nube israelí, con más de 60 regiones de este tipo en todo el mundo.
Además, se ha informado que Microsoft planea gastar unos 50 mil millones de dólares al año en centros de datos (incluido el hardware que contienen), una expansión sin precedentes que tendrá un impacto de gran alcance en el sector.
A corto plazo, ha demostrado que no le importa depender de otros proveedores a medida que su desarrollo (y las cadenas de suministro de Nvidia) se ponen al día, firmando acuerdos con CoreWeave y Oracle para usar su computación.
Al mismo tiempo, Microsoft está mirando más allá, reforzando agresivamente su equipo de investigación de centros de datos. DCD fue el primero en informar sobre sus esfuerzos para construir robots para centros de datos y sus planes para desarrollar una estrategia global de pequeños reactores modulares y microrreactores para alimentar los centros de datos en medio de la crisis de la red.
Cuando se trata de almacenamiento a largo plazo, Microsoft también parece estar a la cabeza: su esfuerzo Project Silica puede almacenar 7 TB en vidrio de sílice fundido que dura 10.000 años. Si se puede comercializar, se reduciría drásticamente el uso de energía del almacenamiento en frío y se reduciría la dependencia de los metales de tierras raras.
"Los discos duros están languideciendo, hemos tenido muy pocos aumentos de capacidad en los últimos cinco años; la cinta está sufriendo", dijo a DCD el Dr. Ant Rowstron, líder de Silica, en 2022. "Cada vez se producen más datos y tratar de almacenarlos de forma sostenible es un desafío para la humanidad".
En otro movimiento a largo plazo, la compañía también saltó al frente del mercado de captura de carbono. La medida es controvertida: la captura de carbono no reemplaza la reducción de emisiones, es difícil de rastrear y puede utilizar energía renovable que de otro modo desplazaría a los combustibles fósiles, pero ha sido adoptada de todo corazón por Microsoft.
Por nombrar sólo algunos: Microsoft ha pagado a ClimeWorks para que elimine 11.400 toneladas métricas de carbono, a Running Tide para que elimine 12.000 toneladas, a Carbon Streaming para que elimine 10.000 toneladas anualmente y a Heirloom para que elimine unas 300.000 toneladas. También ha patentado la idea de ejecutar la captura de carbono en los centros de datos.
Vale la pena reiterar que esto es una gota en el océano en comparación con las emisiones de la empresa, o la cantidad necesaria para que el planeta vuelva a su cauce. Otros esfuerzos de Microsoft, como la compra de bosques, también han resultado contraproducentes después de que se quemaron durante incendios forestales provocados por el cambio climático.
Pero la compañía todavía está muy por delante de sus competidores en la financiación y la experimentación con esfuerzos de captura, y espera mejorar los estándares de contabilidad de carbono con sus esfuerzos con Carbon Call y su inversión en FlexiDAO (junto con Google).
Microsoft tendrá que demostrar que su última expansión de la IA no alterará sus planes de energía sostenible, y no está claro si habrá suficientes PPA 24 horas al día, 7 días a la semana para igualar esa expansión de 50.000 millones de dólares al año (así como el resto de la industria y otros sectores). El uso de agua del centro de datos de la compañía aumentó un 34 por ciento en medio del auge de la IA.
Sin embargo, lo que está claro es que Microsoft abordará el problema con recursos y una velocidad poco común en una empresa de su escala. Atrás quedó el feliz descanso gigante que dependía de Windows.
"A pesar del potencial de los últimos días para distraernos, los científicos e ingenieros de Microsoft y OpenAl han estado trabajando con absoluta urgencia", dijo el CTO de Microsoft y vicepresidente ejecutivo de IA, Kevin Scott, en un memorando interno publicado por The Verge.
"Desde el viernes, Azure ha implementado nueva computación de IA, nuestra recién formada organización MSR Al Frontiers publicó su nueva investigación de vanguardia Orca 2, y OpenAl continuó entregando productos como las nuevas funciones de voz en ChatGPT que se lanzaron ayer. Cualquiera de estas cosas por sí solo habría sido la realización de un cuarto para los equipos normales."
"Tres logros de este tipo en una semana, con un feriado importante en Estados Unidos y con una enorme cantidad de ruido a nuestro alrededor, dice mucho del compromiso, el enfoque y el sentido de urgencia que todos tenemos".
Si bien los otros hyperscalers también están gastando prodigiosamente y tienen equipos de investigadores brillantes, es difícil ver ese mismo nivel de urgencia en toda la empresa.
A medida que la industria se sube a la ola generativa de la IA, Microsoft se ha adelantado y no muestra signos de desaceleración.