IBM anunció la disponibilidad del LLM Mixtral-8x7B de código abierto, desarrollado por Mistral AI, en su plataforma de datos e IA watsonx, mientras continúa expandiendo los recursos para ayudar a los clientes a innovar con los propios modelos base de IBM y aquellos de una variedad de proveedores de código abierto.

IBM ofrece una versión optimizada del Mixtral-8x7b que, en pruebas internas, fue capaz de aumentar la tasa de transferencia en un 50% en comparación con el modelo normal, es decir, aumentó la cantidad de datos que pueden procesarse en un período determinado. Esto podría potencialmente reducir la latencia en un 35-75%, dependiendo del tamaño del lote, acelerando así el tiempo para obtener información. Esto es posible a través de un proceso llamado cuantización, que reduce el tamaño del modelo y los requisitos de memoria para los LLM y, a su vez, puede acelerar el procesamiento para ayudar a reducir los costos y el consumo de energía.

La adición del Mixtral-8x7B amplía la estrategia abierta y multimodelo de IBM para atender a los clientes donde se encuentren y brindarles elección y flexibilidad para escalar soluciones de IA corporativa en sus negocios. A lo largo de décadas de investigación y desarrollo de IA, colaboración abierta con Meta y Hugging Face y asociaciones con líderes de modelos, IBM está expandiendo su catálogo de modelos watsonx.ai y ofreciendo nuevos recursos, idiomas y modalidades.

Según la compañía, las opciones de modelos básicos listos para empresas de IBM y su plataforma de IA y datos watsonx pueden capacitar a los clientes para utilizar la IA generativa y obtener nuevos conocimientos y eficiencia, y crear nuevos modelos de negocio basados en principios de confianza.

El Mixtral-8x7B fue construido utilizando una combinación de modelado disperso, una técnica innovadora que encuentra y utiliza solo las partes más esenciales de los datos para crear modelos más eficientes, y la técnica de Mixture-of-Experts, que combina diferentes modelos que se especializan en resolver diferentes partes de un problema. El modelo Mixtral-8x7B es ampliamente conocido por su capacidad para procesar y analizar rápidamente grandes cantidades de datos para proporcionar información relevante de contexto.

"Los clientes están solicitando opciones y flexibilidad para implementar modelos que se adapten mejor a sus casos de uso exclusivos y requisitos comerciales", dijo Kareem Yusuf, Ph.D., Vicepresidente Senior de Gestión de Productos y Crecimiento de Software de IBM. "Al ofrecer el Mixtral-8x7B y otros modelos en watsonx, no solo les estamos dando opciones sobre cómo implementar la IA, sino que también estamos capacitando a un ecosistema robusto de constructores de IA y líderes empresariales con herramientas y tecnologías para impulsar la innovación en diversos sectores y dominios."

Esta semana, IBM también anunció la disponibilidad del ELYZA-japanese-Llama-2-7b, un modelo japonés de LLM de código abierto de ELYZA Corporation, en watsonx. IBM también ofrece los modelos de código abierto de Meta, Llama-2-13B-chat y Llama-2-70B-chat, y otros modelos de terceros en watsonx, con más por venir en los próximos meses.

icone-de-courrier-electronique-rouge (1).png

Reciba las últimas noticias sobre la industria Data Center directamente en su bandeja de entrada