La IA en la red del centro de datos

Tras años de anticipación, la era de la inteligencia artificial llegó de repente. Muchas empresas se están preguntando cómo la IA se podría aplicar a sus negocios, y dónde (y dónde no) usarla de manera segura y rentable. El sector webscale, que proporciona recursos esenciales de cómputo y almacenamiento a las aplicaciones de IA, también tiene muchas preguntas sobre cómo incorporar la IA en sus centros de datos y cómo puede ser útil en sus operaciones.

Si bien esta pregunta abarca varias dimensiones, veo tres maneras principales en las que la IA afectará las operaciones webscale. La primera es la más directa: las cargas de trabajo de IA van a necesitar distintos tipos de redes para enlazar los clústeres de capacitación y los entornos de computación de alto rendimiento (HPC, por sus siglas en inglés). La segunda se relaciona con los grandes modelos lingüísticos (LLM, por sus siglas en inglés) como ChatGPT. ¿Se pueden aprovechar para capacitar e informar al personal de operaciones sobre las mejores prácticas o para proporcionar interfaces de lenguaje natural que sustituyan o complementen a la gestión de redes basadas en interfaces de línea de comando (CLI, por sus siglas en inglés)? La tercera: ¿qué futuro tiene la IA en la automatización de la red en términos de la orquestación, la garantía de bucle cerrado y la respuesta ante la cambiante dinámica de las aplicaciones y cargas de trabajo?

Ultra-Ethernet

Si bien las supercomputadoras reciben mucha de la atención de los medios en el espacio de la IA, la tendencia va de hecho rumbo a la construcción de clústeres y mallas de computación para lo que se refiere genéricamente como computación de alto rendimiento (HFC, por sus siglas en inglés). La red desempeña un papel importante en habilitar estos clústeres, ya sea dentro de un único centro de datos o entre varios.

Ethernet es el protocolo de capa de transporte para la mayoría de la industria de los datos, pero tiene algunos problemas arquitectónicos cuando se trata de clústeres de computación, a los que les gusta utilizar múltiples vías y la transmisión masiva de paquetes (packet spraying) y no toleran las latencias en la cola. Ethernet tiene un sistema de clasificación de paquetes muy estricto que no respalda su transmisión masiva, lo que crea latencias no deseadas. Se han desarrollado normas propietarias para atender estos problemas, como Slingshot de Cray o Infinband de Invidia, pero hay también en proceso un amplio esfuerzo en la industria para desarrollar una alternativa más abierta que tiene también una compatibilidad retroactiva con Ethernet. Un consorcio de empresas está promoviendo actualmente esta norma, a la cual han denominado Ultra Ethernet.

Ultra Ethernet parece ser la mejor apuesta a largo plazo para la creación de clústeres de capacitación de inteligencia artificial y aprendizaje automático (IA/ML). La amplia adopción y compatibilidad de Ethernet la hacen altamente escalable y flexible. Se usa ampliamente y es fácil de integrar en entornos de red diversos. Además, cuenta con robustos protocolos de seguridad y capacidades de gestión. Aunque todavía está en desarrollo, el consorcio de Ultra Ethernet (UEC, por sus siglas en inglés) está trabajando con rapidez para establecer el protocolo y construir un amplio ecosistema de socios del consorcio a fin de cerciorarse de que el protocolo cuente con un amplio respaldo. Necesitan desarrollar una arquitectura no bloqueante con controles de búfer para reducir la congestión e implementar algún tipo de control de admisión de tráfico, todo con la meta de cumplir con los requisitos de alto desempeño y baja latencia de las aplicaciones de IA.

Interfaces de lenguaje natural

Conforme la nube tiene cada vez mayor distribución, la interconexión de centros de datos implica que los equipos de operación de red necesitan controlar los recursos de la red de área amplia (WAN, por sus siglas en inglés). Esto es un gran paso para muchos equipos que han pasado décadas gestionando la red interna de los centros de datos, con frecuencia utilizando los sistemas operativos de red (NOS, por sus siglas en inglés) de un único proveedor. La manera común de gestionar los elementos de la red WAN es mediante interfaces de línea de comando (CLI, por sus siglas en inglés), que tienden a imponer una pronunciada curva de aprendizaje a los ingenieros nuevos. Incluso dentro de los centros de datos, hay una tendencia a alejarse de las aplicaciones de gestión de los proveedores de equipos, que hace que queden "atrapados" con el proveedor, y preferir el software de código abierto. Las aplicaciones de código abierto permiten a los equipos de operaciones innovar rápidamente con la máxima flexibilidad, pero introducen incluso más comandos que deben dominar los operadores.

Es aquí que las aplicaciones basadas en IA, como ChatGPT, pueden usar los grandes modelos lingüísticos (LLM) para permitir la realización de consultas y respuestas en lenguaje natural, que pueden ser muy útiles. Por ejemplo, al estar entrenadas con documentación específica de software y bitácoras de telemetría, estas IA pueden ayudar a hacer las operaciones de red más accesibles para el personal no técnico.

En mi propio equipo, hemos usado ChatGPT justo de esta manera. En un período de tiempo sorprendentemente corto, fuimos capaces de usarlo con la CLI para nuestro sistema operativo de red. La IA puede responder todo desde cómo hacer operaciones específicas hasta consultas sobre los nodos congestionados o el estatus de los puertos específicos. Incluso los no expertos pueden realizar diagnósticos básicos, resolución de problemas y tareas de configuración, y el acceso a la documentación es más rápido para todos.

Qué tanto se pueden integrar las IA basadas en LLM en los procesos operativos es lo que todo mundo se pregunta en este momento. En toda la industria, los programadores y desarrolladores están usando extensivamente las LLM, así que no es descabellado imaginar que estén cada vez más integradas en las operaciones diarias de gestión.

La IA y la automatización de la red

Ha habido mucho trabajo en la orquestación centralizada y la automatización de redes para la gestión del ciclo de vida. Este parece un punto obvio en el que puede ayudar la IA. Yo creo que estamos en un momento en el que, tecnológicamente hablando, tanto la IA como el acceso en tiempo real a los datos de la red podrían lograr esto.

Nuevamente, una de las metas es hacer más sencillas las operaciones para especificar qué quieren sin necesidad de saber los conceptos tecnológicos profundos de controlar la red. Es aquí que se pueden usar las configuraciones de servicio basadas en la intención para especificar la conducta deseada de la red y los servicios que necesita en lenguaje normal. Esto debería crear automáticamente una cadena de configuraciones y tareas operativas con el uso de plantillas que permitan a la red operar por su cuenta a lo largo de todo su ciclo de vida desde el diseño del día 0, la implementación del día 1 y hasta las operaciones del día 2 en adelante.

La idea clave es que se puede alimentar información en tiempo real a través de analíticos de IA/ML y utilizarla para garantizar niveles de servicio para las cargas de trabajo y las aplicaciones. Esto no es algo que podríamos hacer sin AI y la automatización. Emplear la IA de esta manera no crea el problema de sustituir a los ingenieros de red, porque no sería posible hacer esto manualmente, al menos no de manera asequible. En cualquier caso, muchas empresas carecen de personal suficiente y estas tareas son repetitivas y propensas al error humano. El ahorro operativo que supondrá este nivel de automatización liberará tiempo para que los ingenieros y demás personal desarrollen nuevas ideas innovadoras sobre los servicios y cómo optimizar procesos, operar de manera más sustentable y mejorar la experiencia y la vida de las personas.

Visítenos para saber más sobre lo que tiene Nokia para ofrecer.