Meta (anteriormente conocida como Facebook) está intentando construir la supercomputadora de IA más rápida del mundo.
AI Research SuperCluster (RSC) contará con 16.000 GPU Nvidia A100 y está programado para completarse a mediados de 2022.
La compañía ya ha comenzado a usar el hardware para entrenar grandes modelos de visión por computadora y procesamiento de lenguaje natural (NLP).
“Las experiencias que estamos construyendo para el metaverso requieren una enorme potencia de cómputo (¡quintillones de operaciones por segundo!) y RSC habilitará nuevos modelos de IA que pueden aprender de billones de ejemplos, comprender cientos de idiomas y más”, dijo Mark Zuckerberg, presidente, director general y accionista mayoritario de la empresa.
A diferencia de la anterior supercomputadora de inteligencia artificial de Meta lanzada en 2017, el RSC será capaz de entrenar modelos de aprendizaje automático en datos del mundo real provenientes de las plataformas de redes sociales de la compañía.
Meta ha estado involucrado en la investigación de IA durante más de una década
La compañía estableció el laboratorio de investigación de IA de Facebook (FAIR) en 2013, que pasó a desarrollar herramientas para el diseño de chatbots, métodos para hacer que los sistemas de IA olviden información innecesaria y 'piel sintética' que les da a los robots el sentido del tacto.
La contribución más importante del laboratorio al campo es, sin duda, PyTorch, un marco de aprendizaje profundo de código abierto que surgió como una especie de estándar y ahora es ampliamente utilizado por desarrolladores y científicos de datos en una variedad de plataformas.
Meta lanzó su primera supercomputadora de IA dedicada en 2017, construida con 22.000 GPU Nvidia V100.
La máquina está siendo superada considerablemente por su sucesora, y Meta ha afirmado que RSC ya ofrece tres veces más rendimiento en flujos de trabajo de NLP a gran escala, utilizando menos de la mitad de su huella de hardware final.
La primera fase del proyecto consta de 760 sistemas de servidor Nvidia DGX A100 con un total de 6080 GPU, conectados mediante el tejido Quantum 200 Gb/s InfiniBand de Nvidia.
El nivel de almacenamiento está equipado con 185 PB de memoria flash de Pure Storage y 46 PB de almacenamiento en caché repartidos entre los servidores Penguin Computing Altus. Los datos de entrenamiento se entregan a través del propio servicio de almacenamiento especialmente diseñado de FAIR llamado AI Research Store (AIRStore).
Una vez que se complete el RSC, la misma estructura InfiniBand conectará 16.000 GPU, lo que la convierte en la implementación más grande de DGX A100 hasta la fecha. Será atendido por un sistema de almacenamiento y almacenamiento en caché con 16 TB/s de ancho de banda, y se espera que entregue casi 5 exaflops de computación de precisión mixta.
“Queríamos que esta infraestructura pudiera entrenar modelos con más de un billón de parámetros en conjuntos de datos tan grandes como un exabyte, lo que, para proporcionar una sensación de escala, es el equivalente a 36.000 años de video de alta calidad”, dijeron el técnico de Facebook y gerente del programa Kevin Lee y el ingeniero de software Shubho Sengupta en una publicación en el blog de la compañía.
A diferencia de su supercomputadora anterior, que aprovechaba solo conjuntos de datos de código abierto y disponibles públicamente, la nueva máquina de Meta utilizará datos de entrenamiento del mundo real obtenidos directamente de los usuarios de las plataformas de la compañía.
Por esta razón, Meta dice que el RSC se ha diseñado desde cero teniendo en cuenta la privacidad y la seguridad: la supercomputadora está aislada de Internet, sin conexiones entrantes o salientes directas, y el tráfico solo puede fluir desde los centros de datos de producción de Meta. Los datos del usuario se anonimizan y se cifra toda la ruta de datos desde los sistemas de almacenamiento hasta las GPU.
“Esperamos que RSC nos ayude a construir sistemas de IA completamente nuevos que puedan, por ejemplo, impulsar traducciones de voz en tiempo real para grandes grupos de personas, cada una hablando un idioma diferente, para que puedan colaborar sin problemas en un proyecto de investigación o jugar un juego AR juntos”, dijeron Lee y Sengupta.
“En última instancia, el trabajo realizado con RSC allanará el camino hacia la creación de tecnologías para la próxima gran plataforma informática: el metaverso, donde las aplicaciones y los productos impulsados por IA desempeñarán un papel importante”.
Los autores dijeron que el RSC también se usará para ayudar a identificar mejor el "contenido dañino": los avances recientes de Meta en esta área incluyen la introducción del aprendizaje de pocos disparos (FSL) para detectar más fácilmente las publicaciones que intentan violar su política en nuevos y formas inesperadas.
El problema con los chips
La actual escasez de suministro de chips ha afectado a innumerables proyectos de infraestructura, y el RSC no fue la excepción.
“RSC comenzó como un proyecto completamente remoto que el equipo llevó de un simple documento compartido a un clúster en funcionamiento en aproximadamente un año y medio”, dijeron Lee y Sengupta.
“La COVID-19 y las restricciones de suministro de obleas en toda la industria también generaron problemas en la cadena de suministro que dificultaron la obtención de todo, desde chips hasta componentes como ópticas y GPU, e incluso materiales de construcción, todo lo cual tuvo que transportarse de acuerdo con los nuevos protocolos de seguridad.
“Para construir este clúster de manera eficiente, tuvimos que diseñarlo desde cero, creando muchas convenciones específicas de Meta completamente nuevas y repensando las anteriores en el camino. Tuvimos que escribir nuevas reglas en torno a los diseños de nuestros centros de datos, incluidos su refrigeración, energía, diseño de rack, cableado y redes (incluido un plano de control completamente nuevo), entre otras consideraciones importantes”.