OpenAI lança modelo o3-pro e atualiza modo de voz avançado do ChatGPT

A OpenAI anunciou hoje o modelo o3-pro, uma versão mais poderosa e avançada de seu modelo de raciocínio o3 — lançado em abril para pensar mais profundamente e oferecer respostas mais confiáveis.

A exemplo do modelo que o originou, o o3-pro é capaz de pesquisar na internet, analisar arquivos, raciocinar sobre entradas visuais, usar o Python para resolver problemas e personalizar respostas.

Posts relacionados

  • ChatGPT terá transcrições de reuniões, integração com serviços de nuvem e outras novidades focadas no mercado empresarial
  • Gadget da OpenAI será tão importante quanto o iPhone/Mac, sugere CEO
  • OpenAI lança Codex, um agente de IA focado em programação

De acordo com a OpenAI, esse acesso a ferramentas o torna mais lento que o modelo o1-pro, com seu uso sendo mais indicado especialmente para ocasiões nas quais a confiabilidade importa mais que a velocidade.

Nas avaliações de especialistas, os revisores consistentemente preferem o3-pro em vez do o3 em todas as categorias testadas e especialmente em domínios-chave como ciência, educação, programação, negócios e ajuda na redação.

Outro detalhe importante é que o modelo não suporta geração de imagens, algo que ainda é exclusivo dos modelos GPT-4o, o3 ou o4 mini. Chats temporários também estão desativados por enquanto.

O modelo o3-pro já está disponível a partir de hoje para usuários dos planos Pro e Team, com previsão para que seja suportado também nos planos Enterprise e Edu na semana que vem.

Quando usado via API 1, o o3-pro tem um custo de US$20 por cada milhão de tokens de entrada e US$80 por milhão de tokens de saída. O o3, por sua vez, ficou 80% mais barato com o novo lançamento.

Modo de voz avançado aprimorado

No último sábado, a OpenAI anunciou também uma atualização para o modo de voz avançado, o qual, segundo a empresa, ganhou melhorias em alguns aspectos como entonação e naturalidade.

Tornando as interações mais fluidas e “humanas”, o modo agora apresenta “entonação mais sutil”, “cadência realista” (incluindo pausas e ênfase) e mais “expressividade pontual” para emoções como empatia e sarcasmo.

Em termos de tradução, o modo de voz avançado está mais intuitivo e efetivo, continuando determinada tradução durante a conversa até que o usuário o peça para parar ou trocar de idioma.

Em um restaurante no Brasil, por exemplo, a Voz pode traduzir suas frases em inglês para o português e as respostas em português do garçom de volta para o inglês — tornando as conversas fáceis, não importa onde você esteja ou com quem esteja falando.

O update no modo de voz avançado está disponível para todos os usuários pagantes do ChatGPT, em todos os mercados e plataformas nos quais o recurso está disponível.

Notas de rodapé

1    Application programming interface, ou interface de programação de aplicações.
Adicionar aos favoritos o Link permanente.