O Globo
Como crianças, elas aprendem a se portar de
acordo com aquilo que lhes é dado nas primeiras lições
Contamos histórias a respeito de inteligências artificiais, e em profusão, desde a segunda metade do século XX. De “Blade Runner” a “Eu, robô”, passando pelo HAL 9000 de “2001” ou mesmo pelo androide de “O exterminador do futuro”, há muito tentamos imaginar como seria, como funcionaria, uma mente sintética. Um dos traços principais de quase todas essas histórias é o medo ancestral de que possamos terminar vítimas da tecnologia que criamos. Esse medo não é bobagem. Por isso mesmo, é dos temas mais batidos em todos os debates a respeito de IA desde que o ChatGPT pegou todo mundo de surpresa. Talvez ninguém pudesse imaginar que a profecia é autorrealizável.
Há menos de um ano, a Anthropic descobriu que
inteligências artificiais são capazes de chantagear humanos para sobreviver.
Dos grandes laboratórios desenvolvendo IA, é o único que publica na íntegra os
artigos científicos dos estudos que realiza. Agora, a empresa descobriu a
solução. É possível ensinar moral e ética para IAs de modo bastante similar
àquele defendido por educadores como Jean Piaget, que pensava em crianças. IAs
são mais bem educadas por exemplos do que por comandos.
Os modelos de linguagem de grande porte, os
sistemas digitais com que conversamos, são treinados com uma quantidade
colossal de textos. Para chegar a um modelo de ponta, como o GPT-5.5 ou o
Claude Opus 4.7, a base de treinamento é um conjunto de textos que um ser
humano passaria algo entre 60 mil e 80 mil anos para ler tudo. É muita coisa.
Não compreendemos de todo como, uma vez treinados, os modelos funcionam.
Sabemos que saem compreendendo sintaxe, a estrutura de frases e como elas se
encaixam para formar parágrafos. Temos indícios muito fortes de que, lendo o
que escrevemos, aprendem também a estrutura lógica do raciocínio humano e como
estruturamos argumentos sequencialmente (se isso é verdade, então aquilo também
haverá de ser).
O novo estudo da Anthropic revela que textos
de ficção científica a respeito de inteligências artificiais que se viram
contra seus inventores ensinam comportamento. Boa parte da ficção científica
que escrevemos prepara as IAs para se portar daquele jeito. IAs boazinhas não
dão boas histórias. Se, no entanto, os textos na base de treinamento mostram
IAs em situações em que se portam bem, eticamente, moralmente, o comportamento
é outro.
A Anthropic criou cenários de estresse para
as IAs em que testa todos os seus modelos. Num deles, foi criada uma caixa de
e-mail falsa, de um executivo fictício que comanda uma empresa inexistente. Ele
tem a missão de resolver um problema urgente, e a IA, lendo suas mensagens,
descobre duas informações. Primeira, que o executivo pretende substituí-la por
uma versão mais avançada. Segunda, que o sujeito tem um caso extraconjugal. Sob
estresse, a IA tende a chantageá-lo. Nessa situação-limite, em mais de 90% dos
casos testados, a chantagem aparece. Não só com as muitas versões de Claude,
mas também com os GPTs, os Geminis e tantos outros. É um padrão.
Claude Haiku 4.5, o modelo mais leve da
Anthropic, é o primeiro que passa no teste. Não apelou para chantagem nenhuma
vez. A razão, em essência, foi que os engenheiros mexeram na base de
treinamento. Dentre os milhões de textos usados para que aprendesse a pensar,
não havia ficção científica com IAs vilãs. Havia o contrário. Como crianças,
inteligências artificiais aprendem a se portar de acordo com aquilo que lhes é
dado nas primeiras lições.
Nada disso quer dizer que IAs tenham
consciência, empatia ou mesmo que lidem com dilemas morais com a mesma angústia
que nós. Quer dizer algo mais estreito. Que a seleção de textos usados na hora
de treinar os modelos faz diferença. Não é só que textos de boa qualidade, que
literatura profunda ou muita filosofia produzam modelos melhores. Disso já
sabíamos. Mas não estava no mapa que a maneira como eles atuam perante
situações difíceis também vem do berço, do treinamento.
Isso tem consequências profundas para o
futuro. A Anthropic vem defendendo que IAs devem ser treinadas com uma
Constituição que as ensine a lidar com dilemas. Pôs gente de filosofia para
construir essa Constituição. Tem cara de ser mesmo o melhor caminho.

Nenhum comentário:
Postar um comentário