terça-feira, 19 de novembro de 2024

A IA chegou a um limite? – Pedro Doria

O Globo

Tudo o que está na internet e pode ser usado para treinar os modelos já se esgotou

Os meses passam, e não há notícia de GPT 5, de Claude 3.5, de Gemini 2. Os atuais LLMs, modelos de linguagem de grande porte, estão na terceira geração. A expectativa da iminência de uma quarta é grande — mas temos poucas pistas de como vai seu desenvolvimento. Ou ao menos tínhamos poucas pistas. Na semana passada, três veículos de imprensa trouxeram a informação de que há dificuldades nas três companhias — OpenAI, Anthropic e Google. Dificuldades que ninguém esperava.

Primeiro foi The Information, o site ultraespecializado que cultiva as melhores fontes no Vale do Silício. Orion, a nova versão do GPT, tem ficado superior à versão atual. Mas numa escala de melhoria bastante inferior. O salto da versão 2 para a 3 foi enorme, da 3 para a 4 maior. Esta 5 parece estar aquém. É razoavelmente melhor em texto, mas para código de programação não parece ser tão superior. Como a informação para o site foi em off, não há muitos detalhes.

Aí veio a Reuters. A agência britânica entrevistou Ilya Sutskever, um dos fundadores da OpenAI, que deixou a companhia neste ano. É um dos responsáveis diretos pela revolução de inteligência artificial recente.

— A década de 2010 foi a era de ganhar escala — ele afirmou. — Agora voltamos a um tempo de busca e descoberta. Melhorar a coisa certa se tornou mais importante do que nunca.

A mensagem parece críptica, mas dá para traduzir.

Quando cientistas do Google bolaram o modelo Transformer, que permite a um computador se treinar para produzir textos, não imaginavam que a técnica seria tão revolucionária quanto se mostrou. Então a OpenAI pôs uma quantidade muito grande de textos para alimentar o treinamento do GPT2. Ele parecia escrever como um ser humano. A versão seguinte foi ainda mais convincente, treinada com uma quantidade ainda maior de textos. A hipótese em que a indústria depositou todas suas fichas era uma premissa simples: quanto mais textos se dá para um computador cada vez mais poderoso, mais “inteligente” se torna o modelo.

Sutskever parece dizer que se encontrou o limite da força bruta. Não adianta mais jogar muito texto e muito processamento. Para tornar os modelos melhores, mais capazes de raciocínio, será preciso descobrir outros truques no entorno.

Por fim, veio a Bloomberg. Informou, em termos sucintos, que a OpenAI não está sozinha. Que tanto Google quanto Anthropic, suas principais concorrentes, têm encontrado dificuldades semelhantes.

O burburinho se espalhou rapidamente. Sam Altman, CEO da OpenAI, se sentiu compelido a ir para o X. “Não há parede”, ele escreveu. Só isso. Sucinto. Sundar Pichai também foi ao X ser igualmente econômico nas palavras: “Há mais por vir”.

O debate é importante, e não há informação suficiente para entender o que acontece. Muito do intenso debate sobre inteligência artificial, nos últimos dois anos, se baseia na premissa de que é só dar mais texto e mais processamento que, a cada volta, os modelos ficam imensamente melhores. É assim que foi no passado. Mas nada garante que continuará sendo no futuro. E ninguém conhece o teto para essa melhoria continuada — nem sabe se há teto.

As grandes companhias do Vale do Silício vêm apostando dinheiro como jamais fizeram nessa premissa. Gastos na base das centenas de bilhões de dólares. Cada um desses modelos da geração que virá, cada um unitariamente, custará ao todo US$ 10 bilhões só para treinar. Para produzir o pacote bruto que ainda precisaria ser calibrado e ajustado, para então se tornar um serviço comercial. Não conta o custo de uso, cada vez que alguém faz uma pergunta.

Pode ser que o alarme seja falso. Ao menos por enquanto, os CEOs mantêm o discurso de que tudo continua como dantes. É possível que o problema seja outro: acabaram os textos fáceis de encontrar. Tudo o que está na internet e pode ser usado para treinar os modelos já se esgotou. Se for isso, virá o trabalho difícil. Negociar com editoras, com veículos jornalísticos e com quem mais tiver grandes massas de textos fora da internet os direitos autorais para poder usar.

De qualquer forma, há ansiedade na espera. Quando vem a próxima geração?

Nenhum comentário: