terça-feira, 21 de maio de 2024

Pedro Doria - A IA está quase humana

O Globo

O que chama mais a atenção é o GPT 4o, capaz de conversar como se fosse gente

OpenAI e Google lançaram as novas versões de seus modelos de inteligência artificial (IA) na semana passada, e em ambos os casos representam um novo salto. O que chama mais a atenção é o GPT 4o, capaz de conversar como se fosse gente. Pois é: ficou difícil se comunicar com Alexa, Google Assistente e Siri. Ficaram primitivas demais num estalar de dedos. Mas, do ponto de vista técnico, o relevante é que os dois modelos agora são multimodais. Mais uma palavra importante para nosso vocabulário neste mergulho que a humanidade está dando, agora de mãos dadas com IAs.

Um modelo de IA é multimodal quando é capaz de lidar com texto, som e imagem simultaneamente. Os modelos anteriores operavam em paralelo. Um era de vídeo, outro só de texto, um terceiro convertia texto para fala. Ser multimodal é o que dá ao celular a capacidade de “enxergar” algo com a câmera e descrever o que vê com voz imediatamente — num tempo similar ao que tomaria a nós, humanos.

Aí está a principal diferença entre os dois modelos lançados na semana passada. O “o” minúsculo do GPT 4o, da OpenAI, é de onidirecional. Omni, em grego, é algo para todo lado. Ele é multimodal nas duas direções. Compreende toda informação que chega a ele, não importa se porque falamos, porque mostramos ou escrevemos. E também responde de forma multimodal. É capaz de construir informação em voz, em imagem ou texto. Não importa.

O Gemini 1.5, do Google, é multimodal apenas no sentido da informação que entra. Mas, ao dar suas respostas, ainda precisa recorrer a outros modelos de IA quando sai do texto. Tecnicamente, isso quer dizer apenas que o Google está meio passo atrás da OpenAI. Na maneira como lidamos com um e com o outro, a diferença é entre uma ferramenta útil e conversar com um ser humano.

 

Ser onimultimodal permite ao novo ChatGPT algumas coisas. Uma é nos ver pela câmera do celular. Com a compreensão que construiu do que é um ser humano, interpreta nossas emoções. Pode, portanto, nos ver, nos sentir e nos responder num tom de voz compatível. Sim, o novo ChatGPT dissimula emoções na maneira como fala. Ri, flerta ligeiro, se mostra aberta e interessada. No feminino. A voz e seu jeito, na apresentação, lembravam Samantha, a IA do filme “Ela”, interpretada na fala pela atriz Scarlett Johansson, dirigida por Spike Jonze. A inspiração de como apresentar foi nítida. E confessada. A ficção científica cria mundos possíveis, os engenheiros implementam o projeto. Parecia um futuro longínquo. Chegou.

Ou chegou — ou está chegando. Nem o poder pleno do GPT 4o nem o Gemini 1.5 estão à disposição do público ainda. As empresas prometem distribuir tudo em pacotes nas próximas semanas e meses. Nisso, o Google escolheu um caminho distinto da OpenAI. Em vez de lançar um pacote de software único, espalhou as possibilidades de seu modelo em muitas implementações diferentes.

Uma delas, apenas insinuada, vem na forma de óculos. Não um aparelho como o Apple Vision Pro, mas uma armação normal, similar ao Ray-Ban da Meta. Não dá para enxergar nada pelas lentes, mas há caixa de som e microfone discretos nas hastes e lentes na frente. É possível andar pelo mundo conversando com a assistente digital, pedindo informação, enquanto ela interage podendo ver o mesmo que nós. Ainda não tem data de lançamento.

Outra novidade virá mais rápido, é muito mais simples, incrivelmente útil — e pode quebrar meia internet. Quem fizer uma busca no Google passará a encontrar não apenas links para páginas relacionadas, mas também um texto com uma resposta detalhada. O número de cliques em links despencará no momento em que o Google responder o que buscamos. Prático, claro. Mas o Google responderá com informação que alguém pagou para produzir. Sites, muitos sites, sem visitas não terão como se sustentar. O risco, sério, é começar a esvaziar a internet de informação.

Esse problema as IAs ainda não resolveram. Quem paga pela informação produzida por toda a humanidade que ela deglute para dissimular ser humana?


Nenhum comentário:

Postar um comentário