Zuckerberg anuncia Llama 4, novo modelo de IA do WhatsApp que promete ser melhor do que ChatGPT

A Meta lançou no último sábado os dois primeiros modelos da família Llama 4, marcando sua estreia na tecnologia de mistura de especialistas (MoE). Os novos modelos, denominados Llama 4 Scout e Llama 4 Maverick, representam uma mudança significativa na abordagem da empresa para o desenvolvimento de inteligência artificial.

O Llama 4 Scout possui 17 bilhões de parâmetros ativos com 16 especialistas e pode operar em uma única GPU NVIDIA H100. Já o Llama 4 Maverick, também com 17 bilhões de parâmetros ativos, conta com 128 especialistas e exige mais recursos computacionais.

Você também pode gostar dos artigos abaixo:

Chega de Ghibli! Veja 10 estilos incríveis para transformar suas fotos com o ChatGPT – Simpsons, LEGO, Pixel Art e mais
Nem eles escaparam! Confira alguns memes que entraram na trend do Estúdio Ghibli

A arquitetura MoE divide tarefas complexas em partes menores, atribuindo cada uma a subsistemas neurais especializados. Essa abordagem permite que os modelos processem informações de forma mais eficiente, ativando apenas uma fração do total de parâmetros durante o uso, o que reduz custos e latência de operação.

489528324 1866126614188079 2353760794201377773 n.png? nc cat=106&ccb=1 7& nc sid=e280be& nc ohc=589b2OgjpKQQ7kNvwGDpWPC& nc oc=AdmKWDWnmdi5c4ZObuMPfCbKnGj7WA75e5Whlpwoh6Q99z3YVo97T5sTJWNj6niR2sWvfROhijMO3 OdnkVOx HV& nc zt=14& nc ht=scontent.fjpa2 1

Os novos modelos são baseados no Llama 4 Behemoth, ainda em treinamento, que conta com 288 bilhões de parâmetros ativos, 16 especialistas e quase dois trilhões de parâmetros totais. A Meta afirma ter atingido 390 TFLOPs por GPU durante o processo de treinamento, utilizando precisão FP8 e 32 mil GPUs.

O conjunto de dados de treinamento incluiu mais de 30 trilhões de tokens, mais que o dobro da mistura usada no Llama 3, abrangendo texto, imagens e vídeos diversos. A empresa também desenvolveu uma nova técnica de treinamento chamada MetaP, que permite definir parâmetros críticos como taxas de aprendizado por camada e escalas de inicialização.

Uma característica destacada pela Meta é o esforço para corrigir a tendência dos modelos de linguagem de produzirem respostas alinhadas com o pensamento político de esquerda. Segundo a empresa, o Llama 4 foi projetado para ser “dramaticamente mais equilibrado” em relação a tópicos políticos e sociais controversos, recusando responder a menos tópicos e apresentando inclinação política em taxa comparável ao modelo Grok da X AI.

488655517 650996354186993 1043942188415715102 n.png? nc cat=105&ccb=1 7& nc sid=e280be& nc ohc=jk8wIewED7gQ7kNvwEgs3BC& nc oc=Adk7Uy64Q4Mu5 hIuWqrvLsEGLRb7DOG wME27k5ncaVHzv MygtCmcUao rs3AGEVyIOKnkskYi7lUa8u0zO3HO& nc zt=14& nc ht=scontent.fjpa2 1

Os novos modelos também introduzem recursos multimodais, permitindo processar texto e imagens simultaneamente com uma técnica chamada “fusão precoce”. O Llama 4 Scout suporta um contexto de entrada de 10 milhões de tokens, um avanço significativo em relação aos 128 mil do Llama 3.

O desenvolvimento incluiu proteções contra uso indevido, com a criação do sistema Generative Offensive Agent Testing (GOAT), que simula interações adversariais para identificar vulnerabilidades. Segundo a Meta, isso permite que os testadores humanos se concentrem em áreas adversariais mais inovadoras.

Os modelos estão disponíveis para download no site da Meta e no Hugging Face, mantendo o compromisso da empresa com o código aberto, embora a Open Source Initiative tenha contestado essa classificação por restrições impostas a usuários da União Europeia.

O que você pensa sobre essa nova geração de modelos de inteligência artificial? Compartilhe sua opinião nos comentários.

Fonte: Meta

Adicionar aos favoritos o Link permanente.