¿Dónde vivirán las modelos?

Esta es la pregunta que podría definir a la próxima generación de titanes tecnológicos, a medida que la industria de los centros de datos se esfuerza por soportar un aumento esperado -aunque lejos de garantizado- de las cargas de trabajo de inteligencia artificial (IA) generativa.

La capacitación de modelos se llevará a cabo en grandes centros de datos, cuyo diseño se acerca más a las supercomputadoras de la última década que a las clásicas instalaciones empresariales de hoy. Probablemente, requerirán enormes cantidades de energía, refrigeración líquida y decenas de miles de GPU.

Pero ¿qué pasa con la inferencia, la fase una vez que el modelo está entrenado y se pone en producción? ¿Dónde vivirán y operarán los modelos de IA cuando estén listos para trabajar?

Es probable que el modelo de IA necesite más computación en total en esta fase, porque será entrenado solo unas pocas veces, pero millones lo utilizarán diariamente. También estará más distribuido y se ejecutará en GPU o CPU de gama baja cercanas a los usuarios.

La capacitación puede realizarse lejos de los usuarios, ya que los modelos tardan meses en crearse y no son sensibles a la latencia. Pero, una vez que esté disponible en el mundo real y los usuarios finales lo infieran, el tiempo que lleva cargar y responder podría volverse crítico para el negocio.

Eso se suma a una demanda de inferencia en Edge, según el operador de infraestructura Edge Cloudflare.

A finales del año pasado, Cloudflare dijo que tendría GPU Nvidia en más de 100 ciudades ofreciendo su servicio 'Workers AI' para cargas de trabajo de IA generativa. Dentro de un año, espera haberlos implementado "prácticamente en todas partes" de su red, que abarca centros de datos en más de 300 ciudades.

La empresa comenzó como un operador de red de entrega de contenidos (CDN), pero se ha expandido a servicios de redes y seguridad más amplios, pareciéndose poco a poco a una empresa de nube.

Ahora quiere dominar el espacio de inferencia de IA.

Donde vive el modelo

Algunas personas han propuesto que la inferencia de la IA podría delegarse directamente en los dispositivos del usuario final que entregan los resultados a los usuarios. Los teléfonos actuales ciertamente tienen mucha potencia de procesamiento: el chip A17 del iPhone 15 tiene seis núcleos GPU que brindan suficiente rendimiento para video 4K a hasta 60 fps, pero John Engates, CTO de campo de Cloudflare, dice que esto no es suficiente para realizar inferencias.

"Se realizará una cierta cantidad [de trabajo de IA generativa] en el dispositivo", dijo Engates a DCD. “Pero es limitado, el dispositivo sólo tiene una cierta cantidad de potencia de procesamiento y capacidad de batería. Las GPU no son tan capaces como las que se encuentran en un centro de datos.

T4 GPU
– Nvidia

"A la gente le gusta hablar de lo que el último iPhone es capaz de hacer en términos de GPU, pero cuando lo comparas con una GPU Nvidia ejecutándose en un servidor, son órdenes de magnitud diferentes en términos de capacidad".

Si bien algunos modelos más pequeños pueden funcionar en dispositivos, al igual que el reconocimiento de voz para sistemas de inteligencia artificial como el Asistente de Google se maneja mediante el teléfono, Engates cree que las limitaciones del hardware significarán que los modelos más grandes y mejores sean más adecuados para el Edge.

“La Llama 2 [de Meta] tiene más de 100 gigabytes”, dijo, demasiado grande para dispositivos portátiles.

“Si podemos alojar eso en el Edge y hacer alguna inferencia con estas GPU, podemos eliminar muchas de las limitaciones de ancho de banda y de rendimiento y combinarlas con lo que se encuentra en el dispositivo."

Donde la latencia importa

"Todo nuestro modelo de negocios se basa en pequeños centros de datos en todas partes; algunos de ellos son bastante importantes, pero en general, pequeños y en todas partes", dijo Engates. “Viven dentro de proveedores de nube, empresas de telecomunicaciones o centros de datos que existen en una geografía particular. Cada geo es diferente; Cada país tiene sus propios desafíos”.

Esto ha dado lugar a una vasta infraestructura mundial centrada en reducir la latencia.

"Estamos a 50 milisegundos del 95 por ciento de la población mundial", dijo. "¿Qué puedes hacer con eso? La seguridad tiene sentido y la distribución de contenido tiene sentido. Y luego la inferencia de IA en Edge tiene mucho sentido, porque hay que pensar realmente en cómo la latencia afecta el rendimiento y qué podríamos hacer para acelerar las aplicaciones”.

Esto merece un mayor análisis: dado que la IA generativa cambia tan rápidamente, los casos de uso finales exactos siguen siendo desconocidos. Ciertas cargas de trabajo, como la generación de imágenes, llevan tiempo para crear ilustraciones, por lo que reducir unos segundos de latencia tendrá un impacto limitado.

Los usuarios han informado de frustración por la velocidad de las conversaciones de ChatGPT, pero es probable que tenga más que ver con la velocidad que tarda el modelo en ejecutarse (junto con la escasez de GPU) que con la proximidad física a los usuarios. Si bien seguirá beneficiándose de estar en el Edge, Engates dice que la latencia será más crítica en la próxima generación de IA.

“Piense en una aplicación de voz como Siri. Querrás que sea inmediato, querrás que sea como la conversación que tú y yo estamos teniendo ahora mismo”, dijo. "Y eso requerirá una combinación genial de dispositivo, nube y Edge".

Engates admitió que aún no sabemos cuáles serán las aplicaciones sensibles a la latencia y señaló que los automóviles autónomos podrían beneficiarse de la IA generativa para ayudar a percibir el mundo.

Si bien los vehículos autónomos actuales se han vuelto expertos en el reconocimiento de imágenes, un modelo grande de lenguaje podría ayudar a explicar esas imágenes al automóvil; por ejemplo, el automóvil puede reconocer a un hombre o un niño al costado de la carretera, pero el LLM comprende mejor que es más probable que el niño se lance repentinamente hacia el tráfico que viene en sentido contrario.

Lava lamps
– Cloudflare

Sin embargo, es probable que estos automóviles sigan dependiendo de la computación integrada para realizar inferencias, dada la evidente necesidad de una latencia extremadamente baja.

El Edge también cumplirá otra función, más mundana, para la IA generativa: el cumplimiento. Los datos ya están estrictamente regulados en algunas regiones, pero la naturaleza disruptiva de la IA generativa podría llevar a una supervisión gubernamental mucho mayor. Diferentes naciones exigirán diferentes versiones de modelos que se adapten a sus propias opiniones sobre la libertad de información, los derechos de autor, la protección laboral y la privacidad.

Constreñido

La IA de los trabajadores de Cloudflare incluirá sus propias restricciones. No admitirá modelos proporcionados por el cliente y solo admitirá Llama 2 7B y M2m100-1.2 de Meta, Whisper de OpenAI, Distilbert-sst-2-int8 de Hugging Face, Resnet-50 de Microsoft y bge-base-en-v1.5 de Baai.

Cloudflare planea agregar más modelos en el futuro, con la ayuda de Hugging Face.

"Hay que empezar por algún lado", dijo Engates, considerando que este enfoque garantiza que "los casos de uso básicos estén en funcionamiento".

Pero espera que los casos de uso se amplíen: "Tendremos que idear algunos sistemas para gestionar los costos asociados con el alojamiento de sus propios modelos y cómo se alojan en nuestra nube. Creo que el almacenamiento en caché es probablemente lo más importante: ¿en cuántos lugares quieres que viva el mismo modelo? ¿Qué tan rápido debe estar disponible en estas diferentes ubicaciones?"

“Habrá clientes que nos pedirán cosas muy específicas con el tiempo y tendremos que descubrir cómo habilitarlas. Se trataba de intentar mostrarle a la gente lo que es posible y difundirlo rápidamente. Después, el equipo vuelve a trabajar y realiza iteraciones para la siguiente ronda de lanzamientos”.

La primera ola

Hay suficiente demanda para este primer paso hacia la IA generativa para respaldar el despliegue inicial, afirmó Engates.

“Todas las personas están tratando de experimentar con lo que van a hacer con la IA generativa. Vi a varias personas construyendo sus propios chatbots justo encima de Cloudflare's Edge. Otra persona construyó un sistema tipo Google Translate en 18 líneas de código. El objetivo es simplemente hacer que sea lo más fácil posible para los desarrolladores probar cosas y ponerlas en funcionamiento. Es temprano y muchas de estas cosas todavía están en modo beta”.

Pero espera que Workers AI vaya más allá de la experimentación y permita que surjan nuevos proyectos de la infraestructura, con la mentalidad de "constrúyelo y vendrán" que los defensores de Edge a menudo han esperado.

"Me imagino que muy pronto madurarán y se convertirán en cosas en las que la gente confiará todos los días con acuerdos de nivel de servicio muy, muy estrictos en cuanto a tiempo de actividad y rendimiento", afirmó. "Tenemos que difundirlo para que la gente nos diga lo que quiere".

Engates tiene la esperanza de que la respuesta del mercado apunte a algo transformador, similar a los saltos tecnológicos clave del pasado.

"Me recuerda estos grandes puntos de inflexión en nuestra vida", dijo. "Mi carrera se remonta a mucho tiempo atrás: cuando comencé a principios de los años 90, Internet era algo nuevo. Empecé un ISP nada más terminar la universidad y lo dejé para ayudar a iniciar Rackspace como director de tecnología durante casi 18 años."

“La siguiente gran inflexión fue el móvil, y luego la siguiente fue la nube. Ahora estamos aquí con la IA y me parece casi más grande que las demás juntas. Se están aprovechando de todos ellos y se está aprovechando de ellos para lanzar algo nuevo”.

Una nueva red

Es difícil decir cuán profundo es este momento.

Existe la posibilidad de que la burbuja explote y Cloudflare tenga que frenar cualquier ambición más amplia y reutilizar las GPU para otras aplicaciones, incluidos sus esfuerzos continuos para utilizar la IA para hacer su red más inteligente.

Luego existe la posibilidad de que el concepto esté a la altura de las expectativas: que cada empresa ejecute su propio modelo (o al menos una versión de un modelo) y que cada persona converse regularmente con un asistente virtual instantáneo a través de voz o incluso video.

Eso podría requerir un cambio en la escala en la que Cloudflare tendrá que operar. Puede requerir más capacidad de la que se puede proporcionar en los centros de datos más pequeños o más centrados en telecomunicaciones que a menudo frecuenta, lo que requiere más implementaciones mayoristas y despliegues de borde más grandes.

“Dentro de Cloudflare, existen diferentes capas de lo que consideramos Edge. Está el Edge que está dentro de un rack en el centro de datos de otra persona, versus una infraestructura más grande en lugares como Nueva York que tienen poblaciones considerables”, dijo Engates.

"La red de Cloudflare evolucionará y cambiará con el tiempo; esto es algo que vive y respira", dijo. "Hemos invertido en personas que realmente entienden muy bien el mercado de hiperescala, nuestros equipos están creciendo en términos de poder innovar en ese contexto."

"Todo es para que podamos convertirnos en la base de todas estas cosas interesantes que creemos que están por venir".