Gemini 2.0: IA do Google agora fala, gera imagens, está mais rápida e segura

Hoje, o Google anunciou a mais nova versão do seu modelo de inteligência artificial: o Gemini 2.0 Flash — o qual, segundo a empresa, pode gerar imagens e áudio nativamente, além de texto. Ele também possui a capacidade de utilizar aplicativos e serviços de terceiros, permitindo acesso à pesquisa do Google, execução de códigos e muito mais.

A partir de hoje, uma versão experimental do Gemini 2.0 Flash está disponível através da API ¹ do Gemini e das plataformas de desenvolvedores de IA do Google, como o AI Studio e o Vertex AI. No entanto, os recursos de geração de áudio e imagem serão lançados inicialmente apenas para parceiros com acesso antecipado, enquanto uma implementação mais ampla prevista para janeiro.

Introducing Gemini 2.0, our most capable AI model yet designed for the agentic era. Gemini 2.0 brings enhanced performance, more multimodality, and new native tool use. pic.twitter.com/C90FXCEDBV

— Google (@Google) December 11, 2024

Apresentando o Gemini 2.0, nosso modelo de IA mais capaz já projetado para a era dos agentes. O Gemini 2.0 traz desempenho aprimorado, mais multimodalidade e novo uso de ferramentas nativas.

Nos próximos meses, o Google planeja incorporar o Flash 2.0 em diversos produtos, incluindo o Android Studio, o Chrome DevTools, o Firebase e o Gemini Code Assist.

O modelo de primeira geração, chamado de 1.5 Flash, pode gerar apenas texto e não foi projetado para cargas de trabalho especialmente exigentes. O novo modelo, no entanto, é mais versátil, uma vez que pode interagir com APIs externas. Tulsee Doshi, chefe de produto do Gemini, destacou que o Flash 2.0 é popular entre os desenvolvedores pelo equilíbrio entre velocidade e desempenho — agora aprimorado com ainda mais poder.

O Google afirma que o Flash 2.0 é duas vezes mais rápido que o modelo Gemini 1.5 Pro em certos benchmarks e apresenta melhorias significativas em áreas como programação e análise de imagem. A nova tecnologia substitui o 1.5 Pro como o principal modelo da série Gemini, graças às suas habilidades matemáticas superiores e maior precisão factual.

We’re kicking off the start of our Gemini 2.0 era with Gemini 2.0 Flash, which outperforms 1.5 Pro on key benchmarks at 2X speed (see chart below). I’m especially excited to see the fast progress on coding, with more to come.

Developers can try an experimental version in AI… pic.twitter.com/iEAV8dzkaW

— Sundar Pichai (@sundarpichai) December 11, 2024

Estamos dando início à nossa era Gemini 2.0 com o Gemini 2.0 Flash, que supera o 1.5 Pro em benchmarks importantes com 2X a velocidade (veja o gráfico abaixo). Estou especialmente animado para ver o rápido progresso na programação, com mais por vir. Os desenvolvedores podem testar uma versão experimental no AI Studio e no Vertex AI hoje. Também está disponível para teste no @GeminiApp na web hoje, em breve no celular.

Além de gerar e modificar imagens junto ao texto, o Flash 2.0 também pode processar fotos, vídeos e gravações de áudio, respondendo a perguntas específicas sobre esses conteúdos. A geração de áudio, descrita como “orientável” e “personalizável”, permite ao modelo narrar texto com oito vozes otimizadas para diferentes sotaques e idiomas.

O Google está implementando a tecnologia SynthID para adicionar marca d’água em todos os áudios e imagens gerados pelo Flash 2.0, sinalizando-os como criações sintéticas para mitigar abusos quanto ao uso, incluindo deepfakes.

Por fim, o Google está lançando a Multimodal Live API para ajudar desenvolvedores a criar aplicativos com streaming de áudio e vídeo em tempo real. Essa API permite a integração de ferramentas para realizar tarefas e pode lidar com padrões naturais de conversação, como interrupções.

O Gemini 2.0 já está disponível na App Store, então caso você já tenha o aplicativo instalado basta atualizá-lo pela loja. Para mais informações sobre a nova versão da IA do Google, confira essa página.

Notas de rodapé

1 Application programming interface, ou interface de programação de aplicações.

Notas de rodapé

Newsletter

Obrigado

Posts recentes