IBM anuncia disponibilidade do modelo da Mistral AI de código aberto no watsonx

By Armindo Last updated 29 fev, 2024

Tenha atualizações em tempo real diretamente no seu dispositivo, inscreva-se agora.

A IBM (NYSE: IBM) anuncia hoje a disponibilidade do LLM Mixtral-8x7B de código aberto, desenvolvido pela Mistral AI, em sua plataforma de dados e IA watsonx, à medida que continua a expandir os recursos para ajudar os clientes a inovar com os próprios modelos de base da IBM e aqueles de uma variedade de provedores de código aberto.

A IBM oferece uma versão otimizada do Mixtral-8x7b que, em testes internos, foi capaz de aumentar a taxa de transferência em 50% quando comparado ao modelo normal, ou seja, aumentou a quantidade de dados que podem ser processados em um determinado período.[1] Isso poderia potencialmente reduzir a latência em 35-75%, dependendo do tamanho do lote – acelerando o tempo para insights. Isso é possível por meio de um processo chamado quantização, que reduz o tamanho do modelo e os requisitos de memória para LLMs e, por sua vez, pode acelerar o processamento para ajudar a reduzir os custos e o consumo de energia.

Anúncios

A adição do Mixtral-8x7B expande a estratégia aberta e multimodelo da IBM para atender aos clientes onde eles estão e dar-lhes escolha e flexibilidade para escalar soluções de IA corporativa em seus negócios. Ao longo de décadas de pesquisa e desenvolvimento de IA, colaboração aberta com a Meta e a Hugging Face e parcerias com líderes de modelos, a IBM está expandindo seu catálogo de modelos watsonx܂ai e trazendo novos recursos, linguagens e modalidades.

As escolhas de modelo básico pronto para empresas da IBM e sua plataforma de IA e dados watsonx pode capacitar clientes a usar IA generativa para obter novos insights e eficiência, e criar novos modelos de negócios baseados em princípios de confiança. A IBM permite que os clientes selecionem o modelo certo para os casos de uso corretos e metas de preço e desempenho para domínios de negócios direcionados, como finanças.

O Mixtral-8x7B foi construído usando uma combinação de modelagem Sparse, uma técnica inovadora que encontra e usa apenas as partes mais essenciais de dados para criar modelos mais eficientes, e a técnica Mixture-of-Experts, que combina modelos diferentes que se especializam em resolvem diferentes partes de um problema. O modelo Mixtral-8x7B é amplamente conhecido por sua capacidade de processar e analisar rapidamente grandes quantidades de dados para fornecer insights relevantes de contexto.

Anúncios

“Os clientes estão pedindo escolha e flexibilidade para implementar modelos que melhor se adaptem a seus casos de uso exclusivos e requisitos de negócios”, disse Kareem Yusuf, Ph.D, Vice-Presidente Sênior de Gerenciamento de Produtos e Crescimento da IBM Software. “Ao oferecer o Mixtral-8x7B e outros modelos no watsonx, não estamos apenas dando a eles opcições na forma como implantam IA – estamos capacitando um ecossistema robusto de construtores de IA e líderes de negócios com ferramentas e tecnologias para impulsionar a inovação em diversos setores e domínios.”

Esta semana, a IBM também anunciou a disponibilidade do ELYZA-japanese-Llama-2-7b, um modelo japonês de LLM de código aberto da ELYZA Corporation, no watsonx. A IBM também oferece os modelos de código aberto da Meta, Llama-2-13B-chat e Llama-2-70B-chat e outros modelos de terceiros no watsonx, com mais por vir nos próximos meses.

As declarações relativas à direção e intenção futura da IBM estão sujeitas a alteração ou retirada sem aviso prévio e representam metas e objetivos apenas.

Anúncios

[1] Com base em testes da IBM durante dois dias usando cargas de trabalho internas capturadas em uma instância do watsonx para uso da IBM.