Visitar el campus West Cambridge de la Universidad de Cambridge es sumergirse en ciencia y tecnología de vanguardia.

Al entrar al recinto, es imposible no ver la enorme y reluciente estructura blanca del Ray Dolby Centre, que pronto será la nueva sede del Laboratorio Cavendish, el departamento universitario donde se descubrieron el neutrón y el electrón. Si estás planeando un viaje de un laboratorio a otro, puedes tomar un (muy lento) viaje en uno de los autobuses lanzadera sin conductor que suelen atravesar el campus.

Escondido en un rincón tranquilo cerca de la autopista M11, en la apropiadamente llamada Ada Lovelace Road, también encontrará lo que pretende ser la supercomputadora de inteligencia artificial más rápida del Reino Unido.

Dawn-AI-Supercomputer-01
– University of Cambridge

Ubicada en el centro de datos de West Cambridge, la supercomputadora Dawn se ha creado como parte de un esfuerzo del gobierno para aumentar la capacidad computacional nacional del Reino Unido y apoyar proyectos científicos en todo el país.

Dawn se inauguró en febrero con el lanzamiento oficial de la máquina, pero es en la segunda fase del proyecto, que podría ver sus capacidades multiplicadas por diez, donde los beneficios podrían ser verdaderamente transformadores para los investigadores.

Un nuevo amanecer

Dawn se gestiona a través del Cambridge Open Zettascale Lab, parte del departamento de Servicios de Computación para la Investigación de la Universidad de Cambridge. El departamento proporciona servicios de inteligencia artificial, almacenamiento de datos y computación de alto rendimiento (HPC) a los equipos de investigación de la universidad y otras instituciones académicas de todo el país.

“La mayor parte de nuestro negocio proviene de los consejos de financiación para proporcionar servicios nacionales”, explica el Dr. Paul Calleja, director de Research Computing. “Antes de Dawn, probablemente teníamos 3.000 servidores x86 de varias generaciones. Normalmente tenemos tres generaciones de chips Intel (en este momento tenemos Cascade Lake, Ice Lake y Sapphire Rapids) y, en términos de IA, tenemos una gran cantidad de GPU Nvidia.

“Hemos visto que la demanda de servicios de HPC ha crecido a un ritmo bastante predecible, pero la IA se ha disparado en los últimos años”.

De hecho, el auge de la IA de los últimos 18 meses, impulsado inicialmente por la popularidad del sistema de IA generativa ChatGPT de OpenAI, tomó por sorpresa a muchas empresas y gobiernos de todo el mundo. Pero cuando surgió la IA generativa, el Reino Unido ya estaba evaluando sus capacidades de procesamiento como parte de la revisión Future of Compute, encargada por el gobierno en el verano de 2022.

La revisión, publicada en marzo de 2023 , concluyó que el ecosistema informático del Reino Unido no satisfacía las necesidades de los usuarios y “limitaba la capacidad científica del Reino Unido e inhibía los avances científicos”.

“Teníamos que hacer algo porque durante los últimos 10 o 15 años hemos estado subfinanciando radicalmente este ámbito en el Reino Unido”, afirma el Dr. Calleja, cuyo departamento contribuyó al proceso de revisión. “Siempre se decía que necesitábamos aumentar drásticamente nuestro gasto en IA y HPC”.

Un enfoque abierto al hardware de IA

Y así fue como se anunció Dawn en noviembre, coincidiendo con la cumbre sobre seguridad de la IA del Reino Unido, celebrada en Bletchley Park. La máquina formaba parte de un plan de 300 millones de libras (374 millones de dólares) para construir lo que los ministros describen como un nuevo Recurso de Investigación de Inteligencia Artificial (AIRR) nacional. Esto también implica la construcción de otra supercomputadora de IA, la Isambard-AI, en la Universidad de Bristol.

Desarrollado por Intel y Dell en asociación con el proveedor británico StackHPC, Dawn contiene 512 procesadores escalables Intel Xeon de cuarta generación y 1024 aceleradores Intel Data Center GPU Max 1550 en 256 nodos de servidor Dell PowerEdge XE9640, que ofrecen hasta 128 gigabytes de memoria de alto ancho de banda. El sistema se beneficia de refrigeración líquida directa.

Dawn1
– Matthew Gooding

El Dr. Calleja afirma que la decisión de utilizar el hardware de Intel en lugar del líder del mercado de GPU, Nvidia, se debió a dos factores: el compromiso del proveedor con la arquitectura abierta y el deseo de diversificar la cadena de suministro de hardware del Reino Unido. El hecho de que Intel, junto con Dell, se ofreciera a financiar por completo la primera fase del desarrollo de la máquina probablemente tampoco haya sido perjudicial.

“La dirección de Nvidia es clara”, afirma el Dr. Calleja. “Cada movimiento que realiza tiene como objetivo hacer que su ecosistema sea más exclusivo para que haya más confianza y pueda mantener el precio de sus acciones en el nivel actual. Es una locura y tiene que cambiar porque el ecosistema necesita competencia.

“Como nación, debemos tener en cuenta la diversidad de la cadena de suministro por razones de precio, plazo de entrega y seguridad. Por lo tanto, si el Reino Unido está pensando en invertir cientos de millones de libras en hardware, mi argumento es que debe invertir dos tercios de esa cantidad en el líder actual del mercado e invertir un tercio en el crecimiento de la cadena de suministro.

“El ecosistema de Intel actualmente tiene un número menor de grandes usuarios que el de Nvidia, pero estamos acostumbrados a eso con las arquitecturas novedosas. Han invertido mucho en la primera fase de este sistema y es una situación en la que todos ganan porque sacan su tecnología al mercado y el gobierno gana porque tiene acceso a un sistema innovador”.

El Dr. Calleja afirma que la “larga historia” de Intel en materia de estándares de software abierto en torno a su ecosistema de procesadores x86 lo coloca en una buena posición para incursionar en la IA, a pesar del dominio actual del mercado por parte de Nvidia. “El ecosistema x86 es tan rico debido al compromiso de Intel con la apertura”, afirma. “El 98 por ciento de las cargas de trabajo científicas se ejecutan en x86, e Intel invierte en eso y está empleando una filosofía similar con las GPU”.

Mientras que Nvidia tiene su marco de desarrollo Cuda para IA, Intel tiene oneAPI, un conjunto de herramientas multiplataforma. “Esto significa que si desarrollas en oneAPI, puedes ejecutar ese código en un sistema Nvidia, un sistema Intel o un sistema AMD”, dice el Dr. Calleja. “Creo que eso acabará ganando y ya tengo clientes que usan Nvidia pero no quieren desarrollar en Cuda porque no quieren quedar atrapados.

“Los grandes proyectos de software científico tienen ciclos de inversión de 30 años, mientras que los ciclos de hardware suelen ser de cuatro años, por lo que es mucho mejor si se puede trabajar en varias plataformas. Para mí, es una obviedad, pero Intel necesita impulso y Nvidia lleva diez años de ventaja”.

Los racks Dell PowerEdge cuentan con refrigeración líquida directa, lo que significa que el líquido se rocía sobre una placa fría conectada directamente a los componentes calientes. El Dr. Calleja dice que esto está en consonancia con el espíritu del centro de datos de West Cambridge. "El centro de datos tiene diez años y cuando lo construimos queríamos estar listo para usar agua [para la refrigeración]", dice. "Por eso, todos nuestros racks tienen puertas traseras de refrigeración por agua por herencia.

“Durante mucho tiempo, evitamos tener agua en los servidores porque no era necesaria, pero ahora sí lo es. Tenemos una configuración híbrida que utiliza agua y aire, y nuestra última generación de chips sin refrigeración por agua serán los Cascade Lakes, que se están instalando ahora. Los más nuevos están todos refrigerados por agua”.

El Dr. Calleja afirma que gracias a su configuración de refrigeración híbrida, el centro de datos en su conjunto logra una puntuación de efectividad en el uso de energía (PUE) de 1,14.

Gracias a la asociación con StackHPC, los investigadores que deseen acceder a Dawn pueden hacerlo a través de un único panel de control basado en la nube, conocido como Scientific OpenStack, que también les permite utilizar el resto de la potencia informática del parque de Servicios de Computación de Investigación.

“Está optimizado para HPC e IA, y nos permite hacer muchas cosas diferentes en un entorno seguro”, explica el Dr. Calleja. “Además, podemos implementar plataformas de investigación definidas por software para nuestros clientes. Nos hemos adaptado por completo a la forma de trabajar de DevOps y eso ha revolucionado realmente nuestra forma de operar en términos de usabilidad, portabilidad y seguridad”.

Hermoso amanecer

Es dudoso a estas alturas que la afirmación de Dawn de ser la supercomputadora de inteligencia artificial más rápida del Reino Unido tenga fundamento.

Los datos publicados por Intel en la conferencia SC23 en Denver, Colorado, el año pasado muestran que el sistema alcanzó un pico de 19 petaflops de rendimiento FP64 en la prueba de referencia. Esto lo pone a la par con el superordenador líder actual del Reino Unido, el sistema Archer 2, que tiene un rendimiento máximo en la prueba de referencia de 20 petaflops. Archer2 está en la posición 39 en la lista Top 500 de los superordenadores más potentes del mundo, y las especificaciones declaradas de la fase uno de Dawn lo colocarían en el puesto 41 de la lista.

Sin embargo, aunque esta medición indica los niveles generales de rendimiento del sistema, no mide su capacidad para ejecutar cargas de trabajo de IA. Hasta el momento, Intel no parece haber publicado información sobre el rendimiento de FP8 o FP16, que podría mostrar cómo se compara Dawn con otros sistemas para estas tareas específicas.

Todavía no se han hecho públicos los detalles completos de la segunda fase de Dawn, que se entregará a finales de este año. Estará financiada por el gobierno del Reino Unido, que ha prometido 500 millones de libras (626 millones de dólares) para el proyecto, y el Dr. Calleja espera que, cuando entre en funcionamiento, ofrezca un aumento de rendimiento de diez veces, superando con creces la potencia de Archer 2. Una mejora de diez veces con respecto a los 20 petaflops situaría a Dawn Phase Two entre los diez primeros de la actual lista mundial de los 500 superordenadores más potentes.

La fase actual de Dawn ya está siendo puesta a prueba por investigadores de Cambridge y otros lugares. Uno de los primeros usos del sistema que se han hecho públicos es un proyecto conjunto de la Autoridad de Energía Atómica del Reino Unido (UKAEA) y la Universidad de Cambridge, en el que los investigadores desarrollarán una simulación de un reactor de fusión planificado para acelerar el desarrollo de la tecnología.

Las dos agencias están utilizando Dawn para crear un gemelo digital del prototipo de planta de energía de fusión Spherical Tokamak for Energy Production, que está previsto que cree un "plasma ardiente" para 2035 y una producción neta de electricidad para 2040.

La fusión nuclear tiene el potencial de proporcionar energía ilimitada y sostenible imitando las condiciones del Sol, fusionando átomos ligeros para formar otros más pesados. Sin embargo, las hipótesis de trabajo actuales sugieren que la tecnología aún está a décadas de distancia de ser una realidad. Dawn podría ayudar a acelerar este proceso.

En febrero, el Dr. Rob Akers, director de programas informáticos en UKAEA, dijo: “Tener acceso a sistemas potentes como Dawn es fundamental para posicionar al Reino Unido a la vanguardia de una tecnología y una industria emergentes.

“El premio final será ‘embotellar una estrella’: aprovechar la energía de fusión aquí en la Tierra y avanzar hacia un mundo libre de carbono”.

También se espera que pueda utilizarse en el descubrimiento de fármacos, para permitir el desarrollo de medicinas personalizadas basadas en el ADN de cada individuo y para ayudar a los científicos a modelar el cambio climático y su impacto.

Dawn-AI-Supercomputer-02
El Dr. Paul Calleja, a la izquierda, director de Servicios de Computación de Investigación de la Universidad de Cambridge, con Richard McMahon, investigador principal de Dawn en UKRI. – University of Cambridge

El Dr. Calleja espera que Dawn, junto con el resto de la infraestructura de supercomputación del Reino Unido que forma parte de AIRR, también se utilice en Whitehall. “Más allá de la ciencia, otro gran impulsor de esto son los propios casos de uso del gobierno”, afirma. “Se trata de estudiar cómo ponemos estas tecnologías a disposición de los departamentos gubernamentales para que puedan obtener ganancias de eficiencia”.

Habiendo ocupado el cargo durante 17 años, ha sido testigo de varios cambios importantes en el panorama de HPC, y cree que la IA y las supercomputadoras enfocadas en IA como Dawn están a punto de cambiar el curso del desarrollo de las llamadas máquinas de exaescala, la próxima generación de HPC que prometen ofrecer exponencialmente más poder de cómputo.

En Estados Unidos ya existe un sistema de exaescala, Frontier, y China tiene dos en funcionamiento, aunque no los ha presentado para su evaluación comparativa. La UE tiene dos en desarrollo, uno de los cuales se alojará en Alemania, y en octubre el Reino Unido reveló que la Universidad de Edimburgo había sido seleccionada como la ubicación para la primera instalación de exaescala del Reino Unido. Se espera que el trabajo en el sistema comience en 2025 y que, una vez completado, ofrezca un aumento de rendimiento de 50 veces en comparación con Archer2.

Sin embargo, el Dr. Calleja sostiene que estas máquinas pueden resultar ser "la solución de ayer a los problemas de mañana". Explica: "La exaescala es un desafío, esas máquinas son grandes y difíciles de operar, y lograr que el código se ejecute a esa escala es problemático.

“La promesa de la exaescala es que se pueden resolver problemas más grandes básicamente forzando la resolución de estos problemas con una máquina más grande. Ahora se puede entrenar a un modelo de IA para que lo haga por uno”.

Y añade: “La IA va a tener un gran impacto en el mercado tradicional de HPC. La comunidad es inteligente y ha tenido que adaptarse a los cambios del pasado, y ahora nos encontramos en otro momento que cambiará la época. Yo diría que ya estamos en la era posterior a la exaescala porque con la IA se puede obtener mucho más por cada inversión”.