El supercluster Oracle Cloud Infrastructure (OCI) con GPU Nvidia H200 ya está disponible de forma general.
El Supercluster puede escalar hasta 65.536 GPU Nvidia H200 y ofrece hasta 260 exaflops de rendimiento máximo en FP8. Oracle afirma que es la supercomputadora de IA más grande en la nube.
Según Oracle, cada instancia de Compute dentro del Supercluster tiene un 76 por ciento más de memoria de alto ancho de banda y un 40 por ciento más de ancho de banda de memoria que la instancia H100, mejorando así su rendimiento de inferencia LLM hasta 1,9 veces.
El supercluster tiene una red de clúster diseñada a medida que utiliza RDMA sobre Ethernet convergente versión 2 (RoCE v2) sobre tarjetas de interfaz de red (NIC) Nvidia ConnectX-7 que pueden manejar interconexiones de GPU a GPU de hasta 400 Gbps.
También cuenta con una red front-end mejorada de 200 Gbps para mover grandes conjuntos de datos entre el almacenamiento y las GPU de manera más eficiente.
Las instancias son Bare metal y cada una cuenta con ocho Nvidia H200 con 141 GB de memoria HBM3e y dos CPU Intel Sapphire Rapids 8480+ de 56 núcleos.
El precio sigue siendo de 10 dólares por GPU por hora, igual que con las instancias H100. El supercluster H100 puede escalar hasta 16 384 GPU.
En septiembre de 2024, Oracle reveló que construiría un supercluster con hasta 131.072 de las próximas GPU Nvidia Blackwell, cuyo lanzamiento está previsto para la primera mitad de 2025.