Nvidia ha lanzado un nuevo servicio de supercomputación en la nube que permite a las empresas acceder a infraestructura y software para entrenar modelos avanzados para IA generativa y otras aplicaciones.
Ofrecidos a través de proveedores de nube existentes, los servicios DGX Cloud brindan acceso a clústeres dedicados de hardware Nvidia DGX, que se pueden alquilar mensualmente. Cada instancia de DGX Cloud cuenta con ocho GPU Nvidia H100 o A100 de 80 GB Tensor Core para un total de 640 GB de memoria GPU por nodo. Las instancias de DGX Cloud comienzan en $ 36,999 por instancia por mes.
“Estamos en el momento iPhone de la IA. Las empresas emergentes están compitiendo para crear productos y modelos comerciales disruptivos, y los titulares buscan responder”, dijo Jensen Huang, fundador y director ejecutivo de Nvidia. “DGX Cloud brinda a los clientes acceso instantáneo a la supercomputación Nvidia AI en nubes a escala global”.
Los primeros clientes incluyen la empresa de biotecnología Amgen, la empresa de software de seguros CCC Intelligent Solutions y ServiceNow junto con las supercomputadoras Nvidia DGX en las instalaciones.
"Con la nube Nvidia DGX y Nvidia BioNeMo, nuestros investigadores pueden concentrarse en una biología más profunda en lugar de tener que lidiar con la infraestructura de IA y configurar la ingeniería de ML", dijo Peter Grandsard, director ejecutivo de investigación, centro de descubrimiento terapéutico biológico para la aceleración de la investigación por innovación digital en Amgen. “Las poderosas capacidades informáticas y de múltiples nodos de DGX Cloud nos han permitido lograr un entrenamiento 3 veces más rápido de LLM de proteínas con BioNeMo y un análisis posterior al entrenamiento hasta 100 veces más rápido con Nvidia RAPIDS en relación con las plataformas alternativas”.
DGX Cloud estará inicialmente disponible a través del servicio de nube OCI de Oracle; su OCI Supercluster proporciona una red RDMA especialmente diseñada, computación completa y almacenamiento local y en bloque de alto rendimiento que puede escalar a superclusters de más de 32 000 GPU.
Nvidia dijo que se espera que Microsoft Azure comience a alojar DGX Cloud el próximo trimestre, con planes de "ampliarse pronto" a Google Cloud y otros.
“OCI es la primera plataforma en ofrecer una supercomputadora de IA a escala para miles de clientes en todas las industrias. Esta es una capacidad crítica ya que cada vez más organizaciones requieren recursos informáticos para sus casos de uso únicos de IA”, dijo Clay Magouyrk, vicepresidente ejecutivo de Oracle Cloud Infrastructure. “Para respaldar esta demanda, continuamos ampliando nuestro trabajo con Nvidia”.
Manuvir Das, vicepresidente de computación empresarial de Nvidia, agregó: “Las oportunidades ilimitadas para la innovación impulsada por la IA están ayudando a transformar prácticamente todos los negocios. La colaboración de Nvidia con Oracle Cloud Infrastructure pone el extraordinario rendimiento de supercomputación de la plataforma de computación acelerada de Nvidia al alcance de todas las empresas”.
En su propio anuncio, Oracle agregó que Nvidia está ejecutando sus servicios AI Foundations recientemente anunciados a través de Oracle OCI en la plataforma DGX Cloud.
Según Oracle, OCI Supercluster incluye OCI Compute Bare Metal, un clúster RoCE de latencia basado en redes Nvidia y una opción de almacenamiento. El sistema puede escalar hasta 4096 instancias OCI Compute Bare Metal con 32 768 GPU A100.
Oracle también está agregando las unidades de procesamiento de datos (DPU) BlueField-3 de Nvidia a su pila de redes. Las DPU pueden descargar ciertas tareas de la CPU y asumir la tarea de administrar los datos que se mueven a través de un centro de datos, descargar tareas de red y ayudar a optimizar el rendimiento de las aplicaciones.
Clay Magouyrk, vicepresidente ejecutivo de Oracle Cloud Infrastructure, dijo. “Las DPU Nvidia BlueField-3 son un componente clave de nuestra estrategia para proporcionar una infraestructura de nube sostenible y de última generación con un rendimiento extremo”.
Las GPU Nvidia Hopper llegan a la nube
Las GPU Hopper de Nvidia ahora están disponibles como instancias virtuales a través de varios proveedores de nube.
Oracle anunció esta semana que las instancias OCI Compute Bare Metal con GPU Nvidia H100 están actualmente en disponibilidad limitada. Microsoft anunció la semana pasada una vista previa de su propia máquina virtual con tecnología H100, la ND H100 v5.
AWS pronto ofrecerá GPU H100 a través de sus instancias EC2 P5. Cada instancia P5 cuenta con ocho GPU H100 con capacidad para 16 petaflops de rendimiento de precisión mixta, 640 GB de memoria y conectividad de red de 3200 Gbps. Los clientes podrán escalar sus instancias P5 a más de 20 000 GPU H100.
Las instancias H100 generalmente están disponibles en Cirrascale y CoreWeave.
Nvidia dijo que Google Cloud, Lambda, Paperspace y Vultr planean ofrecer instancias H100 en el futuro.
Próximamente H100 DGX en las instalaciones
Durante su discurso de apertura de GTC esta semana, el CEO de Nvidia, Huang, dijo que la última generación de supercomputadoras DGX H100 de la compañía, impulsada por sus GPU Hopper, está en plena producción y pronto llegará a empresas de todo el mundo.
Cada H100 DGX contará con ocho GPU H100 y proporcionará 32 petaflops de rendimiento informático con precisión FP8. Los primeros clientes que recibirán el sistema incluyen el KTH Royal Institute of Technology en Suecia, el conglomerado japonés Mitsui y la empresa de telecomunicaciones ecuatoriana Telconet.