Estudo da Apple explora limitações dos grandes modelos de raciocínio de IA

A Apple publicou um novo estudo intitulado “The Illusion of Thinking” [PDF] no qual seus pesquisadores se debruçaram sobre as capacidades e limitações dos Grandes Modelos de Raciocínio (Large Reasoning Models, ou LRMs), popularizados nos últimos meses na maioria dos chatbots de inteligência artificial (IA) no mercado.

Os pesquisadores chegaram à conclusão de que, embora esses modelos possam, no final, se sair melhores em testes de benchmark ou de raciocínio, “suas capacidades fundamentais, propriedades de escalabilidade e limitações ainda não são suficientemente compreendidas”.

Posts relacionados

  • Apple Watch não é muito preciso na contagem de calorias queimadas, mostra estudo
  • IA poderá viabilizar monitoramento da frequência cardíaca com os AirPods
  • Estudo da Apple atesta que IAs têm “sotaque” inglês e propõe melhoria

Isso porque os resultados atuais sofrem com a chamada “contaminação dos dados” — ou seja, geralmente fornecem respostas para perguntas complexas de matemática ou programação com base em dados presentes na sua base de treinamento (e não como fruto de seu “raciocínio” em si).

O experimento foi feito em ambientes nos quais os modelos passaram por desafios lógicos controlados, os quais permitiram a manipulação precisa da complexidade composicional com uma estrutura lógica consistente, permitindo analisar os “rastros internos de raciocínio” desses LRMs.

Os resultados

Todos os LRMs mais avançados — como o o3-mini (da OpenAI), o DeepSeek-R1 e o Claude 3.7 Sonnet (da Anthropic) — apresentaram uma espécie de “colapso de precisão” após certo nível. Além disso, eles aumentam o esforço de raciocínio conforme a complexidade, mas acabam declinando em certo ponto (mesmo com tokens suficientes), apresentando taxas de sucesso nulas.

Ao compará-los com os LLMs tradicionais, o estudo constatou que os LRMs surpreendentemente são superados em tarefas de baixa complexidade, enquanto se saem melhores em tarefas medianas e, assim como os grandes modelos, sofrem com um colapso total em alta complexidade.

Levantando questionamentos sobre as verdadeiras capacidades de raciocínio dos LRMs, a pesquisa constatou ainda que esses modelos têm limitações ao fazer cálculos exatos, falhando ao usar algoritmos explícitos e apresentando raciocínio inconsistente em desafios diferentes.

Em vez disso, eles dependem mais de uma correspondência sofisticada de padrões e não necessariamente de um raciocínio inteligente como o humano, o qual é adaptado ao nível de complexidade do problema a ser resolvido.

via Daring Fireball

Adicionar aos favoritos o Link permanente.