
Um paper publicado por pesquisadores da Apple, juntamente a pesquisadores do Institut National de Recherche en Informatique et en Automatique (INRIA), da Escola Politécnica de Paris e da Universidade Sapienza de Roma, indica que os LLMs 1 muitas vezes não geram resultados naturais em línguas não inglesas, refletindo padrões centrados no idioma de raiz anglo-saxônica tanto no vocabulário quanto na gramática.
Assim como os falantes podem produzir expressões estranhas ao aprender uma segunda língua, os LLMs frequentemente geram resultados não naturais em línguas que não são o inglês, refletindo padrões centrados no inglês tanto no vocabulário quanto na gramática.
Desse modo, mesmo quando os modelos geram respostas em outros idiomas, eles ainda “pensam” em inglês. Frente a isso, o artigo introduz um novo conjunto de métricas (uma focada no vocabulário e a outra na estrutura gramatical) para comparar e analisar a naturalidade de LLMs multilíngues em inglês, chinês e francês com o intuito de desenvolver uma abordagem simples e eficaz para aprimorar a naturalidade dos modelos.
Os testes foram feitos com três famílias de LLMs: Llama, Qwen e Mistral. Esses modelos foram selecionados por seu desempenho de ponta em diversos benchmarks em inglês e multilíngues. Além disso, eles são desenvolvidos por equipes de regiões onde o inglês, o chinês e o francês são as línguas oficiais, respectivamente.
Posts relacionados
- Pesquisadores da Apple constatam que IAs não têm tanto raciocínio lógico
- Apple colabora com NVIDIA para diminuir tempo de inferência de LLMs
- Assistentes de voz e modelos de IA são vulneráveis a comandos maliciosos, aponta pesquisa
Os resultados confirmaram a suspeita dos pesquisadores: o modelo chinês Qwen apresentou desempenho inferior em todos os idiomas, incluindo o chinês, enquanto o Llama foi o mais natural no geral.
Assim, a Apple treinou um modelo usando um método de tradução com alinhamento mais natural (analisando o contexto) e outro no qual foi aplicado manipulações sintéticas por meio de paráfrase e retrotradução para o inglês. No primeiro caso, a Apple conseguiu melhorar significativamente tanto a escolha de vocabulário quanto a gramática, isso sem prejudicar o desempenho geral em benchmarks.
O paper está disponível na íntegra nessa página [PDF].
via 9to5Mac