Cuarenta por ciento de las soluciones de Inteligencia Artificial Generativa (GenAI) serán multimodales (texto, imagen, audio y video) para 2027, lo que representa un gran aumento en comparación con solo el 1% registrado en 2023, según Gartner, Inc.
Este cambio de modelos individuales a modelos multimodales proporciona una interacción mejorada entre humanos e Inteligencia Artificial (IA), además de una oportunidad de diferenciación para las ofertas habilitadas por GenAI.
"A medida que el mercado de Inteligencia Artificial Generativa evoluciona hacia modelos entrenados nativamente en más de una modalidad, esto ayuda a capturar las relaciones entre diferentes flujos de datos y tiene el potencial de ampliar los beneficios de la GenAI a todo tipo de datos y aplicaciones. Esto también permite que la Inteligencia Artificial ayude a los humanos a realizar más tareas, independientemente del entorno", dice Erick Brethenoux, Vicepresidente y Analista de Gartner.
La Inteligencia Artificial Generativa multimodal es una de las dos tecnologías identificadas en el Ciclo de Sobreexpectación de Gartner para GenAI, en la que la adopción inicial tiene el potencial de generar ventajas competitivas significativas y beneficios en términos de tiempo de comercialización. Junto con los grandes modelos de lenguaje (LLMs) de código abierto, ambas tecnologías tienen un alto potencial de impacto en las empresas en los próximos cinco años.
Entre las innovaciones de GenAI que Gartner espera que alcancen adopción masiva en los próximos 10 años, se han identificado dos tecnologías que ofrecen el mayor potencial: modelos de Inteligencia Artificial Generativa específicos de dominio y agentes autónomos.
"Navegar por el ecosistema de GenAI seguirá siendo una tarea desafiante para las empresas, debido a un entorno tecnológico y de proveedores caótico y dinámico", dice Arun Chandrasekaran, Vicepresidente y Analista de Gartner. "La Inteligencia Artificial Generativa está en el Valle de la Desilusión, con el inicio de la consolidación de la industria. Los beneficios reales surgirán cuando disminuya la sobreexpectación, con rápidos avances esperados en los próximos años".
Inteligencia artificial multimodal:
La GenAI multimodal tendrá un impacto transformador en las aplicaciones empresariales al permitir la adición de nuevas capacidades y funcionalidades que antes eran inalcanzables. El impacto no está limitado a industrias o casos de uso específicos, y puede aplicarse en cualquier punto de contacto entre la IA y los humanos. Actualmente, muchos modelos multimodales están limitados a dos o tres modalidades, pero esto aumentará en los próximos años para incluir más categorías.
"En el mundo real, las personas reciben y comprenden información a través de una combinación de diferentes modalidades, como audio, visual y sensorial", dice Brethenoux. "La GenAI multimodal es importante porque los datos son típicamente multimodales. Cuando se combinan modelos de modalidad única para soportar aplicaciones de IA multimodal, generalmente se produce latencia y resultados menos precisos, lo que disminuye la calidad de la experiencia".
Modelos de lenguaje de gran escala de código abierto:
Los modelos de lenguaje de gran escala (LLMs) de código abierto aceleran el valor empresarial de la implementación de GenAI al democratizar el acceso comercial y permitir a los desarrolladores optimizar modelos para tareas y casos de uso específicos. Además, ofrecen acceso a comunidades de desarrolladores en empresas, academias y otras áreas de investigación, que trabajan hacia objetivos comunes de mejora y valorización de los modelos.
"Los grandes modelos de lenguaje de código abierto aumentan el potencial de innovación a través de la personalización, mayor control sobre la privacidad y la seguridad, transparencia de los modelos, capacidad de aprovechar el desarrollo colaborativo y potencial para reducir la dependencia de proveedores", dice Chandrasekaran. "En última instancia, ofrecen a las empresas modelos más pequeños que son más fáciles y menos costosos de entrenar, y que habilitan aplicaciones empresariales y procesos de negocio esenciales".
Modelos de Inteligencia Artificial Generativa específicos de dominio:
Los modelos de GenAI específicos de dominio están optimizados para las necesidades de industrias, funciones empresariales o tareas específicas. Pueden mejorar el alineamiento de los casos de uso dentro de las empresas, ofreciendo mayor precisión, seguridad y privacidad, así como respuestas más contextualizadas. Esto reduce la necesidad de ingeniería avanzada de prompts en comparación con modelos de uso general y puede disminuir los riesgos de alucinación mediante entrenamientos enfocados.
"Los modelos específicos de dominio pueden alcanzar un tiempo más rápido para generar valor, mejor rendimiento y mayor seguridad en proyectos de IA, proporcionando un punto de partida más avanzado para tareas específicas de la industria", dice Chandrasekaran. "Esto incentivará una adopción más amplia de GenAI, ya que las empresas podrán aplicarlos en casos de uso donde los modelos de propósito general no son suficientemente efectivos".
Agentes autónomos:
Los agentes autónomos son sistemas combinados que alcanzan objetivos definidos sin intervención humana. Utilizan una variedad de técnicas de IA para identificar patrones en su entorno, tomar decisiones, ejecutar secuencias de acciones y generar resultados. Estos agentes tienen el potencial de aprender de su entorno y mejorar con el tiempo, permitiendo la realización de tareas complejas.
"Los agentes autónomos representan un cambio significativo en las capacidades de la IA", dice Brethenoux. "Sus capacidades de operación y decisión independientes permiten mejorar las operaciones empresariales, mejorar la experiencia del cliente y crear nuevos productos y servicios. Esto probablemente proporcionará ahorros de costos, garantizando una ventaja competitiva. También implica un cambio organizacional de la ejecución a la supervisión".