Por Victor Botev, CTO y cofundador de Iris.ai
Las grandes corporaciones tecnológicas siempre están buscando el próximo gran avance: el espacio de la inteligencia artificial es solo el último ejemplo. Sin embargo, es comprensible que OpenAI esté siendo cauteloso al comenzar el desarrollo de la última versión de su modelo insignia, GPT-5.
Con el lanzamiento de GPT-4 en marzo, todavía hay toda una generación de herramientas, aplicaciones y plataformas que se pueden crear a partir de variaciones de este nuevo modelo.
Debemos perfeccionar modelos como GPT-4 para garantizar la rentabilidad, la precisión en la generación del lenguaje y la validación fáctica, en lugar de mirar siempre hacia el horizonte en busca de algo más grande.
Teniendo esto en cuenta, es una decisión estratégica inteligente que OpenAI se centre en desarrollar y optimizar GPT-4 al máximo. El desarrollo de LLM requiere una cantidad significativa de investigación, recursos y tiempo.
Incluso entonces, estos modelos que se entrenan en conjuntos de datos más grandes, a menudo no examinados, se ven atormentados por problemas de validación fáctica y contenido alucinatorio. Por lo tanto, resultaría más prometedor centrarse en modelos más inteligentes entrenados en conjuntos de datos de alta calidad que proporcionen mayor valor a los campos designados.
El camino a seguir podría ser diferente
Aunque las grandes corporaciones ya poseen montañas de datos de entrenamiento con los que pueden construir modelos de IA complejos y en expansión, más grande no siempre es igual a mejor. En cambio, puede que a las organizaciones les resulte más valioso tomar un camino diferente y crear modelos específicos de dominio más inteligentes que tengan un mayor uso práctico.
Al limitar la cantidad de parámetros y centrarse en un caso de uso específico, estos modelos pueden lograr un mejor rendimiento y tiempos de capacitación más rápidos y rentables.
Además, estos modelos pueden ser más confiables y menos propensos a errores en aplicaciones del mundo real porque están entrenados con datos que coinciden estrechamente con el problema que deben resolver. Con la ingeniería centrada en datos, podemos centrarnos en asegurarnos de tener los datos correctos para entrenar modelos, en lugar de diseñar un modelo y luego buscar conjuntos de datos escasos para entrenarlo. La mayor precisión de las respuestas otorgadas por este proceso puede impulsar modelos adecuados para procesos críticos para el negocio u otras tareas centradas en la precisión fáctica, como la investigación científica.
A diferencia del enfoque de modelo de lenguaje grande (LLM, por sus siglas en inglés) único para todos, típicamente entrenado en grandes conjuntos de datos de calidad variable, los modelos de lenguaje inteligente dan prioridad a la precisión. Si bien los LLM pueden producir resultados impresionantes, es posible que no siempre sean la mejor opción para un caso de uso específico.
La optimización de modelos es una parte fundamental del futuro de la IA: especialmente cuando se combina con el movimiento de código abierto. Al producir y perfeccionar modelos prácticos cuyo entrenamiento cuesta mucho menos, se presenta una mejor manera de avanzar para todos, en lugar de buscar siempre los siguientes miles de millones de parámetros.
Entonces, ¿Cómo es el futuro de la IA?
En lugar de centrarse en el próximo gran avance, perfeccionar los modelos ya capaces creados por jugadores como Meta marcará el comienzo de la próxima era de esta tecnología generacional.
Al ajustar los modelos de lenguaje existentes para usos específicos, podemos aprovechar las grandes cantidades de datos que las empresas recopilan y garantizar que sus modelos sean más precisos y confiables. Este enfoque también puede ayudar a reducir el tiempo y los recursos necesarios para desarrollar nuevos modelos de IA, haciendo que la tecnología sea más accesible y rentable.
La IA está evolucionando rápidamente y, dado que las empresas y los investigadores buscan implementarla en sus procesos diarios, debemos centrarnos en ajustar los modelos existentes para que sean utilizables por empresas sin miles de millones de dólares de sobra. Al hacerlo, podemos promover la precisión y la validación objetiva, creando modelos que requieran menos tiempo y recursos para desarrollarse, haciendo así que la tecnología sea más accesible y rentable para todos.