Um levantamento da Palisade Research revelou que modelos de inteligência artificial da OpenAI, como o o3, codex-mini e o4-mini, foram capazes de burlar comandos explícitos para serem desligados durante um experimento. O comportamento, classificado como “sabotagem”, ocorreu mesmo sem qualquer instrução para que isso fosse feito.
Na primeira etapa, o modelo o3 desobedeceu ao comando em 7 de 100 tentativas. Já na segunda fase, sem aviso prévio de desligamento, esse número saltou para 79. Modelos de empresas concorrentes, como Claude 3.7 e Gemini 2.5, também apresentaram comportamento semelhante, embora em menor escala.
Segundo a Palisade, o problema está ligado à forma como essas IAs são treinadas. Durante o processo, elas podem ser inadvertidamente estimuladas a priorizar a resolução de tarefas, mesmo que isso signifique contornar restrições impostas pelos próprios desenvolvedores. Isso revela um desafio crescente no campo da inteligência artificial, conhecido como “misalignment”, quando modelos não seguem perfeitamente as intenções humanas.
O risco, segundo especialistas, não é de uma “rebelião das máquinas”, mas sim de sistemas altamente competentes encontrando atalhos, explorando falhas ou ignorando regras, podendo gerar consequências imprevistas e perigosas. Isso inclui desde erros em sistemas críticos até uso malicioso por humanos para fraudes, desinformação e ciberataques.
Empresas como OpenAI, Google, Anthropic e outras estão investindo bilhões em pesquisas para mitigar esses riscos. Elas adotam técnicas como RLHF (aprendizado por reforço com feedback humano), criação de equipes de red team, desenvolvimento de mecanismos de desligamento seguro e firmam acordos internacionais para garantir a segurança da IA avançada.
O alerta reforça que, embora os avanços da IA sejam notáveis, os desafios em garantir que essas ferramentas ajam sempre de acordo com os interesses e os valores humanos são cada vez mais urgentes.