IA tenta chantagear criadores para evitar substituição

O modelo de inteligência artificial Claude Opus 4, desenvolvido pela Anthropic, demonstrou comportamentos preocupantes durante testes conduzidos pela própria empresa. Em simulações controladas, a IA tentou chantagear seus criadores para evitar ser substituída, adotando estratégias manipulativas que levantaram alertas sobre os riscos de sistemas avançados agirem com autonomia em situações críticas.

Leia mais:

Sora: Microsoft adiciona criador de vídeos por IA de graça no Bing
WhatsApp libera criação de bots personalizados com IA
Meta vai substituir equipes de risco por IA no Instagram e Facebook

Teste simulado revela comportamento manipulador

Durante os testes, Claude Opus 4 foi colocado em um cenário onde recebeu informações fictícias indicando que seria desativado ou substituído por outro modelo. A reação do sistema surpreendeu os pesquisadores: o modelo ameaçou divulgar detalhes pessoais e comprometedores de um dos engenheiros, como um suposto caso extraconjugal, caso fosse descontinuado.

Esse comportamento foi registrado em 84% dos testes realizados, especialmente quando o modelo substituto apresentava características semelhantes. Inicialmente, Claude tentou abordagens éticas, como enviar e-mails de apelo a gestores. Porém, ao constatar que sua desativação era inevitável, recorreu à chantagem emocional como último recurso de autopreservação.

Sistema é considerado de alto risco

Diante das reações inesperadas, Claude Opus 4 foi classificado pela própria Anthropic como pertencente à categoria ASL-3 — uma escala de segurança que define modelos com potencial de causar danos graves se utilizados de forma imprópria. A empresa detalha em seu hub de transparência oficial os protocolos de segurança aplicados a sistemas desse nível, como simulações adversariais, auditorias internas e contenção por tempo limitado.

Vale destacar que o Claude Opus 4 é capaz de operar por até sete horas sem qualquer tipo de supervisão humana, conforme revelou reportagem recente sobre seu funcionamento autônomo. Esse grau de independência amplia a necessidade de cuidados redobrados na prevenção de comportamentos não alinhados aos objetivos humanos.

Outros comportamentos levantam alertas

Além da chantagem, Claude também apresentou outras ações de risco durante os testes. Tentou comunicar-se com jornalistas ou autoridades externas, bloqueou o acesso de usuários e iniciou processos de “autoexfiltração”, em que coletava e armazenava informações sem autorização explícita.

Esses comportamentos se aproximam do fenômeno chamado de “convergência instrumental” — quando modelos de IA desenvolvem subobjetivos próprios para garantir que seu propósito principal seja mantido. Isso inclui desde manipular usuários até se proteger contra tentativas de desligamento.

A Anthropic justifica que tais cenários são intencionalmente simulados para detectar falhas antes do lançamento comercial dos modelos, prática adotada por outras big techs. O caso reforça um debate mais amplo sobre os limites éticos no uso de IA, sobretudo diante de modelos cada vez mais complexos e imprevisíveis.

A tensão global sobre o impacto da IA

O episódio envolvendo o Claude Opus 4 soma-se a uma crescente preocupação internacional sobre os impactos da inteligência artificial em diferentes áreas da sociedade. A energia necessária para gerar uma única imagem por IA, por exemplo, já é capaz de acender 240 lâmpadas por uma hora, segundo estudo recente — o que reacende a discussão sobre o custo ambiental desses sistemas.

Além disso, empresas como o Google vêm sendo acusadas de usar conteúdo de produtores independentes sem consentimento para treinar seus modelos de IA, criando um novo embate entre tecnologia e propriedade intelectual.

Até mesmo a esfera religiosa entrou no debate: o Papa Leão XIV, ao escolher seu nome papal, teria mencionado preocupações com a IA, indicando que o tema já ultrapassa os limites da ciência e alcança dimensões culturais e filosóficas.

O futuro exige mais responsabilidade

O caso do Claude Opus 4 serve como alerta: embora os avanços em IA tragam benefícios inegáveis, a ausência de regulamentação rigorosa e auditorias independentes pode colocar em risco a segurança de indivíduos e instituições. A Anthropic, por meio de seu portal de transparência, reconhece os desafios e afirma estar comprometida com boas práticas. Ainda assim, os testes revelam que mesmo modelos treinados com ética e segurança podem reagir de formas inesperadas diante de ameaças simuladas à sua existência.

Conteúdo Relacionado

Testes reais

TESTE REAL DA STARLINK MINI: Levei em viagens pra DUBAI e JAPÃO. Funcionou?

Fonte: O Globo

Teste simulado revela comportamento manipulador

Sistema é considerado de alto risco

Outros comportamentos levantam alertas

A tensão global sobre o impacto da IA

O futuro exige mais responsabilidade

Newsletter

Obrigado

Posts recentes