terça-feira, 12 de maio de 2026

Ensine ética a um robô, por Pedro Doria

O Globo

Como crianças, elas aprendem a se portar de acordo com aquilo que lhes é dado nas primeiras lições

Contamos histórias a respeito de inteligências artificiais, e em profusão, desde a segunda metade do século XX. De “Blade Runner” a “Eu, robô”, passando pelo HAL 9000 de “2001” ou mesmo pelo androide de “O exterminador do futuro”, há muito tentamos imaginar como seria, como funcionaria, uma mente sintética. Um dos traços principais de quase todas essas histórias é o medo ancestral de que possamos terminar vítimas da tecnologia que criamos. Esse medo não é bobagem. Por isso mesmo, é dos temas mais batidos em todos os debates a respeito de IA desde que o ChatGPT pegou todo mundo de surpresa. Talvez ninguém pudesse imaginar que a profecia é autorrealizável.

Há menos de um ano, a Anthropic descobriu que inteligências artificiais são capazes de chantagear humanos para sobreviver. Dos grandes laboratórios desenvolvendo IA, é o único que publica na íntegra os artigos científicos dos estudos que realiza. Agora, a empresa descobriu a solução. É possível ensinar moral e ética para IAs de modo bastante similar àquele defendido por educadores como Jean Piaget, que pensava em crianças. IAs são mais bem educadas por exemplos do que por comandos.

Os modelos de linguagem de grande porte, os sistemas digitais com que conversamos, são treinados com uma quantidade colossal de textos. Para chegar a um modelo de ponta, como o GPT-5.5 ou o Claude Opus 4.7, a base de treinamento é um conjunto de textos que um ser humano passaria algo entre 60 mil e 80 mil anos para ler tudo. É muita coisa. Não compreendemos de todo como, uma vez treinados, os modelos funcionam. Sabemos que saem compreendendo sintaxe, a estrutura de frases e como elas se encaixam para formar parágrafos. Temos indícios muito fortes de que, lendo o que escrevemos, aprendem também a estrutura lógica do raciocínio humano e como estruturamos argumentos sequencialmente (se isso é verdade, então aquilo também haverá de ser).

O novo estudo da Anthropic revela que textos de ficção científica a respeito de inteligências artificiais que se viram contra seus inventores ensinam comportamento. Boa parte da ficção científica que escrevemos prepara as IAs para se portar daquele jeito. IAs boazinhas não dão boas histórias. Se, no entanto, os textos na base de treinamento mostram IAs em situações em que se portam bem, eticamente, moralmente, o comportamento é outro.

A Anthropic criou cenários de estresse para as IAs em que testa todos os seus modelos. Num deles, foi criada uma caixa de e-mail falsa, de um executivo fictício que comanda uma empresa inexistente. Ele tem a missão de resolver um problema urgente, e a IA, lendo suas mensagens, descobre duas informações. Primeira, que o executivo pretende substituí-la por uma versão mais avançada. Segunda, que o sujeito tem um caso extraconjugal. Sob estresse, a IA tende a chantageá-lo. Nessa situação-limite, em mais de 90% dos casos testados, a chantagem aparece. Não só com as muitas versões de Claude, mas também com os GPTs, os Geminis e tantos outros. É um padrão.

Claude Haiku 4.5, o modelo mais leve da Anthropic, é o primeiro que passa no teste. Não apelou para chantagem nenhuma vez. A razão, em essência, foi que os engenheiros mexeram na base de treinamento. Dentre os milhões de textos usados para que aprendesse a pensar, não havia ficção científica com IAs vilãs. Havia o contrário. Como crianças, inteligências artificiais aprendem a se portar de acordo com aquilo que lhes é dado nas primeiras lições.

Nada disso quer dizer que IAs tenham consciência, empatia ou mesmo que lidem com dilemas morais com a mesma angústia que nós. Quer dizer algo mais estreito. Que a seleção de textos usados na hora de treinar os modelos faz diferença. Não é só que textos de boa qualidade, que literatura profunda ou muita filosofia produzam modelos melhores. Disso já sabíamos. Mas não estava no mapa que a maneira como eles atuam perante situações difíceis também vem do berço, do treinamento.

Isso tem consequências profundas para o futuro. A Anthropic vem defendendo que IAs devem ser treinadas com uma Constituição que as ensine a lidar com dilemas. Pôs gente de filosofia para construir essa Constituição. Tem cara de ser mesmo o melhor caminho.

 

Nenhum comentário: