Fundación e imperio
Es imposible decir cómo de rápido crecerán las demandas informáticas de entrenar estos modelos, pero se acepta casi universalmente que el costo de entrenar modelos de vanguardia seguirá aumentando rápidamente en el futuro previsible.
La complejidad y los obstáculos financieros de hacer un modelo básico ya lo han puesto fuera del alcance de todos, excepto de un pequeño número de gigantes tecnológicos y nuevas empresas de IA bien financiadas. De las nuevas empresas capaces de construir sus propios modelos, no es una coincidencia que la mayoría pudiera hacerlo con financiación y créditos en la nube de los hyperscalers.
Eso impide que la mayoría de las empresas compitan en un espacio que podría ser tremendamente disruptivo, cimentando el control en manos de unas pocas empresas que ya dominan el mercado de infraestructura de Internet existente. En lugar de representar un cambio de guardia en el mundo de la tecnología, corre el riesgo de convertirse simplemente en un nuevo frente para los viejos soldados de la guerra en la nube.
"Hay una serie de problemas con la centralización", dijo el Dr. Alex Hanna, director de investigación del Instituto de Investigación de IA Distribuida (DAIR). "Significa que ciertas personas controlan la cantidad de recursos que se destinan a ciertas cosas.
“Estás básicamente limitado a estar a la merced de Amazon, Microsoft y Google”.
Esas tres empresas, junto con los centros de datos de Meta, es donde se capacitan la mayoría de los modelos de base. El dinero que las nuevas empresas están recaudando se canaliza principalmente hacia esas empresas en la nube.
“Si tomas OpenAI, están construyendo los modelos básicos y muchas compañías diferentes no estarían incentivadas para construirlos en este momento y preferirían diferir el uso de esos modelos”, dijo Rishi Bommasani de Stanford.
“Creo que ese modelo de negocios continuará. Sin embargo, si necesita especializar las cosas en sus casos de uso particulares, está limitado en la medida en que OpenAI le permite especializarse”.
Dicho esto, Bommasani no cree que "alguna vez vayamos a ver realmente un modelo dominante", con nuevos jugadores como Amazon comenzando a moverse en ese espacio. “Ya tenemos una colección de 10 a 15 desarrolladores de modelos de base, y no espero que colapse más de cinco a 10”.
Aunque el campo es relativamente incipiente, ya estamos viendo surgir diferentes modelos de negocios. “DeepMind y Google casi no dan acceso a ninguno de sus mejores modelos”, dijo. "OpenAI proporciona una API comercial, y luego Meta y Hugging Face generalmente brindan acceso completo".
Tales posiciones pueden cambiar con el tiempo (de hecho, después de nuestra entrevista, Google anunció una API para su modelo PaLM), pero representan una gran cantidad de enfoques para compartir el acceso a los modelos.
Los grandes jugadores (y sus seguidores) argumentan que no importa demasiado si son los únicos con los recursos para construir modelos básicos. Después de todo, hacen que los modelos preentrenados estén disponibles de manera más amplia, con el trabajo pesado ya hecho, para que otros puedan ajustar IA específicas encima de ellos.
Adelante la fundación
Entre los que ofrecen acceso a modelos básicos se encuentra Nvidia, un fabricante de hardware cuyas GPU (unidades de procesamiento de gráficos) han resultado ser clave para las supercomputadoras que ejecutan IA.
En marzo de 2023, la compañía lanzó la plataforma Nvidia AI Foundations, que permite a las empresas crear aplicaciones de IA generativas, específicas de dominio y patentadas basadas en modelos que Nvidia entrenó en sus propias supercomputadoras.
“Obviamente, la ventaja para las empresas es que no tienen que pasar por todo ese proceso. No solo el gasto, sino que hay que hacer un montón de trabajo de ingeniería para probar continuamente los puntos de control y probar los modelos hecho por ellos", explicó el vicepresidente de informática empresarial de Nvidia, Manuvir Das.
Según lo que necesiten y la experiencia interna que tengan, las empresas pueden ajustar los modelos a sus propias necesidades. "Se necesita computación para el ajuste, pero no es tan intensivo como el entrenamiento completo desde cero", dijo Das. "En lugar de muchos meses y millones de dólares, normalmente estamos hablando de un día de cómputo, pero por cliente".
También espera que las empresas utilicen una combinación de modelos de diferentes tamaños, siendo los más grandes más avanzados y más precisos, pero con una latencia más prolongada y un mayor costo de capacitación, ajuste y uso.
Si bien los grandes modelos que han captado los titulares se basan principalmente en datos públicos, es probable que las empresas bien financiadas desarrollen sus propias variantes con sus propios datos patentados.
Esto podría implicar introducir datos en modelos como la familia GPT. Pero, ¿a quién pertenece entonces el modelo resultante? Esa es una pregunta difícil de responder, y podría significar que una empresa acaba de entregar su información más valiosa a OpenAI.
"Ahora sus datos están encapsulados en un modelo a perpetuidad y son propiedad de otra persona", dijo Rodrigo Liang, director ejecutivo de la empresa de hardware como servicio de inteligencia artificial SambaNova. "En cambio, le brindamos una plataforma informática que se entrena con sus datos, produce un modelo que puede poseer y luego le brinda el más alto nivel de precisión".
Por supuesto, OpenAI también está cambiando como empresa y está comenzando a establecer relaciones con empresas, lo que brinda a los clientes más control sobre sus datos. A principios de este año se reveló que la empresa cobra 156.000 dólares por mes para ejecutar sus modelos en instancias dedicadas.
El enfoque abierto
Si bien las empresas están preocupadas por su conocimiento patentado, hay otras preocupadas por cuán cerrada se está volviendo la industria.
La falta de transparencia en los últimos modelos dificulta la comprensión del poder y la importancia de estos modelos.
“La transparencia es importante para la ciencia, en términos de cosas como la replicabilidad y la identificación de sesgos en los conjuntos de datos, la identificación de pesos y el intento de rastrear por qué un determinado modelo está dando resultados X”, dijo el Dr. Hanna de DAIR.
“También es importante en términos de gobernanza y comprensión de dónde puede haber una capacidad de intervención pública”, explicó. “Podemos saber dónde podría haber un mecanismo a través del cual un regulador pueda intervenir, o puede haber una legislación aprobada para exponerlo a centros de evaluación abiertos y auditorías”.
Los principales avances tecnológicos que hicieron posible la IA generativa surgieron de la comunidad de código abierto, pero ahora han sido impulsados aún más por corporaciones privadas que combinaron esa tecnología con un foso de computación costosa.
EleutherAI es uno de los que intenta mantener los avances de código abierto competitivos con los laboratorios de investigación corporativos, se formó a partir de un grupo Discord en 2020 y se incorporó formalmente como un instituto de investigación sin ánimo de lucro este mes de enero.
Para construir su visión y grandes modelos de lenguaje, se ha visto obligado a depender de un mosaico de cómputo disponible. Primero usó las TPU de Google a través del programa de investigación de la empresa en la nube, pero luego se trasladó a las empresas de nube de nicho CoreWeave y SpellML cuando se agotó la financiación.
La empresa de inteligencia artificial generativa con ánimo de lucro Stability AI también ha donado una parte de la computación de su clúster de AWS para la investigación LLM en curso de EleutherAI.
“Somos como un pequeño pececito en la piscina, simplemente tratando de capturar cualquier computación que podamos”, dijo Quentin Anthony de EleutherAI. “Después podemos dárselo a todos, para que los aficionados puedan hacer algo con él, ya que se están quedando atrás por completo.
“Creo que es bueno que exista algo que no es solo lo que un par de corporaciones quieren que sea”.
Los jugadores de código abierto como EleutherAI pueden considerar los recursos que tienen como desechos y sobras, pero están utilizando sistemas que estaban a la vanguardia del rendimiento informático cuando se construyeron.