O Globo
O que chama mais a atenção é o GPT 4o, capaz
de conversar como se fosse gente
OpenAI e Google lançaram as novas versões de seus modelos de inteligência artificial (IA) na semana passada, e em ambos os casos representam um novo salto. O que chama mais a atenção é o GPT 4o, capaz de conversar como se fosse gente. Pois é: ficou difícil se comunicar com Alexa, Google Assistente e Siri. Ficaram primitivas demais num estalar de dedos. Mas, do ponto de vista técnico, o relevante é que os dois modelos agora são multimodais. Mais uma palavra importante para nosso vocabulário neste mergulho que a humanidade está dando, agora de mãos dadas com IAs.
Um modelo de IA é multimodal quando é capaz
de lidar com texto, som e imagem simultaneamente. Os modelos anteriores
operavam em paralelo. Um era de vídeo, outro só de texto, um terceiro convertia
texto para fala. Ser multimodal é o que dá ao celular a capacidade de
“enxergar” algo com a câmera e descrever o que vê com voz imediatamente — num
tempo similar ao que tomaria a nós, humanos.
Aí está a principal diferença entre os dois
modelos lançados na semana passada. O “o” minúsculo do GPT 4o, da OpenAI, é de
onidirecional. Omni, em grego, é algo para todo lado. Ele é multimodal nas duas
direções. Compreende toda informação que chega a ele, não importa se porque
falamos, porque mostramos ou escrevemos. E também responde de forma multimodal.
É capaz de construir informação em voz, em imagem ou texto. Não importa.
O Gemini 1.5, do Google, é multimodal apenas
no sentido da informação que entra. Mas, ao dar suas respostas, ainda precisa
recorrer a outros modelos de IA quando sai do texto. Tecnicamente, isso quer
dizer apenas que o Google está meio passo atrás da OpenAI. Na maneira como
lidamos com um e com o outro, a diferença é entre uma ferramenta útil e
conversar com um ser humano.
Ser onimultimodal permite ao novo ChatGPT algumas
coisas. Uma é nos ver pela câmera do celular. Com a compreensão que construiu
do que é um ser humano, interpreta nossas emoções. Pode, portanto, nos ver, nos
sentir e nos responder num tom de voz compatível. Sim, o novo ChatGPT dissimula
emoções na maneira como fala. Ri, flerta ligeiro, se mostra aberta e
interessada. No feminino. A voz e seu jeito, na apresentação, lembravam
Samantha, a IA do filme “Ela”, interpretada na fala pela atriz Scarlett
Johansson, dirigida por Spike Jonze. A inspiração de como apresentar foi
nítida. E confessada. A ficção científica cria mundos possíveis, os engenheiros
implementam o projeto. Parecia um futuro longínquo. Chegou.
Ou chegou — ou está chegando. Nem o poder
pleno do GPT 4o nem o Gemini 1.5 estão à disposição do público ainda. As
empresas prometem distribuir tudo em pacotes nas próximas semanas e meses.
Nisso, o Google escolheu um caminho distinto da OpenAI. Em vez de lançar um
pacote de software único, espalhou as possibilidades de seu modelo em muitas
implementações diferentes.
Uma delas, apenas insinuada, vem na forma de
óculos. Não um aparelho como o Apple Vision Pro, mas uma armação normal,
similar ao Ray-Ban da Meta. Não dá
para enxergar nada pelas lentes, mas há caixa de som e microfone discretos nas
hastes e lentes na frente. É possível andar pelo mundo conversando com a
assistente digital, pedindo informação, enquanto ela interage podendo ver o
mesmo que nós. Ainda não tem data de lançamento.
Outra novidade virá mais rápido, é muito mais
simples, incrivelmente útil — e pode quebrar meia internet. Quem fizer uma
busca no Google passará a encontrar não apenas links para páginas relacionadas,
mas também um texto com uma resposta detalhada. O número de cliques em links
despencará no momento em que o Google responder o que buscamos. Prático, claro.
Mas o Google responderá com informação que alguém pagou para produzir. Sites,
muitos sites, sem visitas não terão como se sustentar. O risco, sério, é começar
a esvaziar a internet de informação.
Esse problema as IAs ainda não resolveram.
Quem paga pela informação produzida por toda a humanidade que ela deglute para
dissimular ser humana?
Nenhum comentário:
Postar um comentário