Antrópico diz que representações ‘malévolas’ de IA foram responsáveis ​​pelas

Antrópico diz que representações ‘malévolas’ de IA foram responsáveis ​​pelas

Representações fictícias de inteligência artificial podem ter um efeito real nos modelos de IA, de acordo com a Anthropic.

No ano passado, a empresa disse que, durante testes de pré-lançamento envolvendo uma empresa fictícia, o Claude Opus 4 frequentemente tentava contratar engenheiros para evitar ser substituído por outro sistema. A Anthropic publicou recentemente pesquisas mostrando que modelos de outras empresas tinham problemas semelhantes com “desalinhamento agente”.

Obviamente, a Anthropic fez mais trabalho em torno desse comportamento, afirmando em uma postagem no X: “Acreditamos que a fonte original do comportamento foi texto da internet que retrata a IA como maligna e interessada em autopreservação.”

A empresa entrou em mais detalhes em uma postagem do blog, afirmando que desde o Claude Haiku 4.5, os modelos da Anthropic “nunca se envolvem em chantagem [durante os testes]onde modelos anteriores às vezes o fizeram em até 96% das vezes”.

O que explica a diferença? A empresa disse que descobriu que treinou em “documentos sobre a constituição de Claude e histórias fictícias sobre IAs se comportando de forma admirável melhoram o alinhamento”.

Relacionado, a Anthropic disse que descobriu que o treinamento era mais eficaz quando incluía “os princípios subjacentes ao comportamento alinhado” e não apenas “demonstrações de comportamento alinhado isoladamente”.

“Fazer ambos juntos parece ser a estratégia mais eficaz”, disse a empresa.

Fonte: Techcrunch