Surgiram nas últimas semanas rumores sobre o DeepSeek R2, o novo modelo de inteligência artificial desenvolvido pela empresa chinesa DeepSeek. Segundo informações publicadas por fontes chinesas e repercutidas internacionalmente, o R2 pode representar uma nova mudança de cenário no setor de IA, principalmente por conta do seu potencial custo reduzido e pela utilização de chips locais da Huawei.

Apesar de não haver confirmação oficial por parte da DeepSeek, as especulações indicam que o modelo foi treinado predominantemente com a infraestrutura baseada nos aceleradores Ascend 910B, da Huawei, atingindo uma taxa de utilização de 82% nos clusters e desempenho de até 512 PetaFLOPS em precisão FP16.
Modelo adota arquitetura híbrida e expande parâmetros
De acordo com os vazamentos, o DeepSeek R2 utilizará uma versão própria da arquitetura Hybrid MoE (Mixture of Experts).
Esse modelo combina mecanismos de ativação avançados com camadas densas, buscando otimizar tarefas de alta complexidade. A nova estrutura técnica permitiria ao R2 atingir 1,2 trilhão de parâmetros, dobrando a capacidade em relação ao DeepSeek R1.
Embora o número absoluto de parâmetros seja elevado, a ativação dinâmica prevista indica que, durante as inferências, apenas 78 bilhões de parâmetros seriam processados ativamente, o que contribuiria para o aumento de eficiência e redução dos custos operacionais.
Custos até 97,3% mais baixos em comparação com o GPT-4o
O aspecto mais destacado nos rumores é o custo por token. Informações apontam que o DeepSeek R2 poderá operar com valores 97,3% inferiores aos do GPT-4o da OpenAI.
A taxa estimada seria de US$ 0,07 por milhão de tokens de entrada e US$ 0,27 por milhão de tokens de saída.

Esse patamar de preços representaria uma vantagem competitiva significativa para a DeepSeek, principalmente no mercado corporativo, onde o custo de operação dos grandes modelos de linguagem (LLMs) é um fator decisivo.
- Veja também: Ferramenta Deep Research da OpenAI agora pode ser usada por contas gratuitas do ChatGPT
Se confirmados, esses números posicionariam o R2 como a opção mais econômica entre os modelos de grande escala disponíveis.
Treinamento com dados de múltiplos setores e ganhos em desempenho
Outro ponto relevante mencionado nos relatórios é que o DeepSeek R2 teria sido treinado com um corpus de 5,2 petabytes de dados de alta qualidade, abrangendo setores verticais como finanças, direito e propriedade intelectual.
A empresa teria utilizado técnicas de destilação semântica em múltiplas fases, elevando a taxa de aderência a instruções para 89,7% nos testes com o benchmark C-Eval 2.0.

No campo da multimodalidade, o modelo também teria evoluído.
Em tarefas de visão computacional, o DeepSeek R2 teria usado um novo módulo baseado em ViT-Transformer e conseguido uma pontuação de 92,4 mAP no conjunto de dados COCO, que é um dos principais testes para medir a precisão de modelos que reconhecem imagens.
Esse resultado supera os números obtidos por arquiteturas anteriores, como a CLIP, indicando que o DeepSeek R2 pode ser mais preciso ao identificar e interpretar imagens.

🔍 Novidade em teste
YouTube testa sua própria versão de resumos com IA para vídeos
Impacto potencial no mercado global de IA
O possível lançamento do DeepSeek R2 traz implicações relevantes para o mercado de inteligência artificial. Combinando alto desempenho, treinamento em infraestrutura nacional e custo reduzido, o modelo pode pressionar empresas ocidentais a revisarem suas estratégias de precificação e eficiência.
- Veja também: Destilação: o método da DeepSeek que revoluciona a IA mundial
Ainda assim, é importante reforçar que todas essas informações são baseadas em vazamentos e reportagens preliminares.
O cenário final pode variar, dependendo da confirmação oficial da DeepSeek e da performance real do R2 em testes públicos.
Fonte: Adrenaline.

Decisão previsível
Gemini: IA do Google será lançada também em relógios