A Meta apresentou nesta terça-feira (11) o V-JEPA 2, um sistema de inteligência artificial pioneiro que representa um salto significativo na capacidade das máquinas compreenderem e interagirem com o mundo físico.
O modelo, com 1,2 bilhão de parâmetros, consegue processar informações visuais para prever comportamentos físicos e controlar robôs em ambientes completamente novos, sem necessidade de treinamento prévio específico.
Replicando a intuição humana
O desenvolvimento baseia-se na forma como humanos desenvolvem intuição física desde a infância. Quando uma criança observa uma bola sendo arremessada para o alto, ela naturalmente espera que a gravidade a traga de volta ao chão.
A capacidade de prever consequências físicas permite que pessoas naveguem por ambientes desconhecidos, antecipem movimentos em esportes e tomem decisões cotidianas com segurança.
O V-JEPA 2 replica essa habilidade através de uma arquitetura que combina dois componentes principais: um codificador que processa vídeos em tempo real e extrai informações semânticas sobre o estado do mundo observado, e um preditor que gera projeções sobre como situações evoluirão baseadas em contextos específicos.
Treinamento em duas etapas
O processo de desenvolvimento ocorreu em duas fases distintas. A primeira etapa utilizou mais de 1 milhão de horas de vídeo e 1 milhão de imagens de fontes diversas, permitindo ao sistema aprender padrões sobre interações entre pessoas e objetos, movimentação física e dinâmicas ambientais através de aprendizado auto-supervisionado.

Durante esta fase inicial, o modelo já demonstrou capacidades impressionantes em tarefas de reconhecimento de ações, alcançando desempenho excepcional no benchmark Something-Something v2 e estabelecendo novos recordes na antecipação de ações do Epic-Kitchens-100, prevendo com precisão ações que ocorrerão 1 segundo no futuro.]
O V-JEPA 2 representa nosso próximo passo em direção ao objetivo de alcançar inteligência artificial avançada e construir agentes de IA úteis que possam operar no mundo físico
Controle robótico sem treinamento específico
A segunda fase focou no desenvolvimento de capacidades de planejamento através da incorporação de apenas 62 horas de dados robóticos. Esta quantidade relativamente pequena de informações especializadas foi suficiente para permitir que o sistema controlasse robôs em situações completamente inéditas.
O diferencial do V-JEPA 2 reside na sua capacidade de planejamento zero-shot, onde robôs podem manipular objetos nunca vistos anteriormente em ambientes totalmente novos. O sistema utiliza controle preditivo por modelo, reavaliando constantemente as ações e ajustando estratégias em tempo real para alcançar objetivos visuais específicos.
Em testes práticos, o modelo alcançou taxas de sucesso entre 65% e 80% em tarefas de pegar e posicionar objetos desconhecidos em ambientes inéditos, demonstrando versatilidade significativa comparada a outros modelos robóticos que normalmente exigem treinamento específico para cada ambiente de operação.
Novos Benchmarks para Avaliação
Junto ao V-JEPA 2, a Meta introduziu três novos benchmarks para medir capacidades de raciocínio físico em modelos de IA:
1. IntPhys 2
Avalia a habilidade de distinguir entre cenários fisicamente plausíveis e impossíveis. Utilizando pares de vídeos idênticos até determinado ponto, onde um desenvolve evento que quebra leis físicas, o sistema mede intuição física básica. Enquanto humanos alcançam precisão próxima a 100%, modelos atuais permanecem próximos ao acaso.

2. Minimal Video Pairs (MVPBench)
Testa compreensão física através de questões múltipla escolha, eliminando atalhos comuns como dependência de pistas visuais superficiais. Cada exemplo possui par com vídeo visualmente similar, mesma pergunta, mas resposta oposta, exigindo raciocínio genuíno para sucesso.

3. CausalVQA
Mede capacidade de responder perguntas sobre causa e efeito físico, incluindo cenários contrafactuais, antecipação de eventos e planejamento de ações. Modelos multimodais atuais demonstram competência em descrever eventos observados, mas enfrentam dificuldades significativas em prever desenvolvimentos futuros.

Aplicações práticas e limitações
As aplicações potenciais do V-JEPA 2 abrangem desde assistência a pessoas com deficiência visual até automação industrial avançada.
O sistema pode auxiliar na navegação de ambientes complexos, manipulação de objetos delicados e execução de tarefas que exigem compreensão contextual sofisticada.
Contudo, o modelo atual opera em escala temporal única, limitando sua aplicação em tarefas que demandam planejamento hierárquico em múltiplas escalas temporais.
Atividades como carregar lava-louças ou preparar receitas complexas ainda representam desafios significativos.
Impacto no cotidiano das pessoas
Como vimos, o V-JEPA 2 promete transformar a vida cotidiana através de aplicações práticas que vão muito além de laboratórios de pesquisa.
Assistentes domésticos robóticos equipados com esta tecnologia poderão ajudar idosos e pessoas com mobilidade reduzida em tarefas básicas como organizar objetos, preparar refeições simples ou auxiliar na limpeza da casa, adaptando-se automaticamente a diferentes layouts e móveis.
Para pessoas com deficiência visual, o sistema pode revolucionar a navegação independente. Dispositivos portáteis equipados com câmeras e processamento V-JEPA 2 conseguiriam descrever ambientes complexos, prever obstáculos móveis como pessoas caminhando ou portas se abrindo, e orientar rotas seguras em tempo real sem necessidade de mapeamento prévio dos locais.
Na educação infantil, brinquedos inteligentes poderiam ensinar conceitos de física de forma interativa, demonstrando causa e efeito através de experiências visuais adaptadas ao ritmo de aprendizado de cada criança. O sistema consegue prever e explicar por que determinadas ações resultam em consequências específicas.
O setor de cuidados de saúde também se beneficiaria significativamente. Robôs hospitalares equipados com V-JEPA 2 poderiam navegar corredores movimentados, entregar medicamentos evitando colisões com equipamentos móveis, e auxiliar pacientes com necessidades específicas sem necessidade de programação prévia para cada ambiente hospitalar.
Para consumidores comuns, a tecnologia pode aparecer primeiro em eletrodomésticos inteligentes mais sofisticados. Aspiradores robóticos que realmente entendem o ambiente, máquinas de lavar que ajustam ciclos baseadas na observação visual das roupas, ou sistemas de segurança doméstica capazes de distinguir entre atividades normais e suspeitas através de compreensão contextual avançada.
Leia também:
- Novo vídeo do Optimus da Tesla exibe robô humanoide fazendo tarefas domésticas
- AR Spectacles: Snapchat anuncia novos óculos de realidade aumentada
- Robôs protagonizam a primeira luta de boxe humanoide do mundo
Direções fturas
A Meta planeja expandir o desenvolvimento através de modelos JEPA hierárquicos capazes de raciocinar em múltiplas escalas temporais e espaciais. A integração de modalidades sensoriais adicionais, incluindo áudio e tato, representa outra frente de desenvolvimento prioritária.
A disponibilização do código e checkpoints do modelo para uso comercial e de pesquisa busca acelerar desenvolvimentos na área, criando comunidade robusta em torno da tecnologia. Os recursos estão disponíveis através do GitHub e Hugging Face, acompanhados de leaderboard para acompanhamento de progressos nos novos benchmarks.
O lançamento é um marco deveras relevante na evolução de sistemas de IA capazes de compreender e interagir com o mundo físico de forma mais intuitiva e eficiente, aproximando capacidades artificiais das habilidades naturais humanas de navegação e manipulação ambiental.
Fonte: Meta

Tecnologia de ponta!
Amazon está treinando robôs humanoides para entregar encomendas