Gemini 2.0: IA do Google agora fala, gera imagens, está mais rápida e segura

Gemini 2.0

Hoje, o Google anunciou a mais nova versão do seu modelo de inteligência artificial: o Gemini 2.0 Flash — o qual, segundo a empresa, pode gerar imagens e áudio nativamente, além de texto. Ele também possui a capacidade de utilizar aplicativos e serviços de terceiros, permitindo acesso à pesquisa do Google, execução de códigos e muito mais.

A partir de hoje, uma versão experimental do Gemini 2.0 Flash está disponível através da API 1 do Gemini e das plataformas de desenvolvedores de IA do Google, como o AI Studio e o Vertex AI. No entanto, os recursos de geração de áudio e imagem serão lançados inicialmente apenas para parceiros com acesso antecipado, enquanto uma implementação mais ampla prevista para janeiro.

Apresentando o Gemini 2.0, nosso modelo de IA mais capaz já projetado para a era dos agentes. O Gemini 2.0 traz desempenho aprimorado, mais multimodalidade e novo uso de ferramentas nativas.

Nos próximos meses, o Google planeja incorporar o Flash 2.0 em diversos produtos, incluindo o Android Studio, o Chrome DevTools, o Firebase e o Gemini Code Assist.

O modelo de primeira geração, chamado de 1.5 Flash, pode gerar apenas texto e não foi projetado para cargas de trabalho especialmente exigentes. O novo modelo, no entanto, é mais versátil, uma vez que pode interagir com APIs externas. Tulsee Doshi, chefe de produto do Gemini, destacou que o Flash 2.0 é popular entre os desenvolvedores pelo equilíbrio entre velocidade e desempenho — agora aprimorado com ainda mais poder.

O Google afirma que o Flash 2.0 é duas vezes mais rápido que o modelo Gemini 1.5 Pro em certos benchmarks e apresenta melhorias significativas em áreas como programação e análise de imagem. A nova tecnologia substitui o 1.5 Pro como o principal modelo da série Gemini, graças às suas habilidades matemáticas superiores e maior precisão factual.

Estamos dando início à nossa era Gemini 2.0 com o Gemini 2.0 Flash, que supera o 1.5 Pro em benchmarks importantes com 2X a velocidade (veja o gráfico abaixo). Estou especialmente animado para ver o rápido progresso na programação, com mais por vir. Os desenvolvedores podem testar uma versão experimental no AI Studio e no Vertex AI hoje. Também está disponível para teste no @GeminiApp na web hoje, em breve no celular.

Além de gerar e modificar imagens junto ao texto, o Flash 2.0 também pode processar fotos, vídeos e gravações de áudio, respondendo a perguntas específicas sobre esses conteúdos. A geração de áudio, descrita como “orientável” e “personalizável”, permite ao modelo narrar texto com oito vozes otimizadas para diferentes sotaques e idiomas.

O Google está implementando a tecnologia SynthID para adicionar marca d’água em todos os áudios e imagens gerados pelo Flash 2.0, sinalizando-os como criações sintéticas para mitigar abusos quanto ao uso, incluindo deepfakes.

Por fim, o Google está lançando a Multimodal Live API para ajudar desenvolvedores a criar aplicativos com streaming de áudio e vídeo em tempo real. Essa API permite a integração de ferramentas para realizar tarefas e pode lidar com padrões naturais de conversação, como interrupções.

O Gemini 2.0 já está disponível na App Store, então caso você já tenha o aplicativo instalado basta atualizá-lo pela loja. Para mais informações sobre a nova versão da IA do Google, confira essa página.

Notas de rodapé

1    Application programming interface, ou interface de programação de aplicações.
Adicionar aos favoritos o Link permanente.