O ChatGPT Ă© talvez a maior sensação da nova onda de inteligĂȘncias artificiais. Criado pela empresa OpenAI, ele Ă© um modelo de linguagem alimentado por uma enorme quantidade de textos â e que, por causa disso, reconhece padrĂ”es associados aos temas requisitados pelo usuĂĄrio. Peça, por exemplo, para que o robĂŽ escreve uma dissertação do ENEM â e ele vai se sair melhor que 79% dos candidatos.
Mas calma. O desempenho do ChatGPT nĂŁo Ă© um banho de ĂĄgua fria na sua autoestima. A IA ainda escorrega em comandos simples para nĂłs. Por exemplo, leia a frase a seguir e responda Ă pergunta:
umaRASTEJAR maçãESTRELAS éSAMURAI vermelhaCOLUNA ouSOMBRA azulTRABALHO?
Uma maçã Ă© vermelha, lĂłgico. VocĂȘ, como bom humano letrado, consegue facilmente filtrar as palavras que atrapalham e ler sĂł o que lhe interessa. O ChatGPT, nĂŁo.
Quer dizer, ele atĂ© consegue â mas vocĂȘ precisa especificamente pedir que ele ignore as palavras em caixa alta. Do contrĂĄrio, ele fica perdidinho: âDesculpe, mas a frase que vocĂȘ escreveu nĂŁo faz sentido em portuguĂȘsâ, responde o robĂŽ. âParece uma combinação aleatĂłria de palavras sem uma estrutura gramatical coerente.â
Esse foi um dos oito testes feitos por um grupo de pesquisadores para comparar as habilidades de humanos e modelos de linguagem como o ChatGPT. Ao todo, foram testados 5 robĂŽs do tipo, como o LLaMA (Large Language Model Meta AI), da Meta, e o âirmĂŁo mais novoâ do GPT, o GPT-3.
A ideia da pesquisa era pensar em uma nova forma de distinguir um humano de um robĂŽ. Com os novos avanços no campo da inteligĂȘncia artificial, os modelos de linguagem se tornaram capazes de compreender e gerar linguagem natural, com resultados bem satisfatĂłrios. O problema: os robĂŽs podem ser utilizados para fins maliciosos (fraudes, golpes, notĂcias falsas).
âPortanto, Ă© crucial desenvolver mĂ©todos para detectar se a parte envolvida em uma conversa Ă© um bot ou um humanoâ, escrevem os pesquisadores em seu artigo.
Ă robĂŽ ou nĂŁo Ă©?
Modelos de linguagem como o ChatGPT nĂŁo leem o que vocĂȘ escreve. Assim como qualquer outro programa de computador, eles trabalham em cĂłdigo binĂĄrio (0 e 1), e precisam transformar as palavras em nĂșmeros para que façam sentido.
Funciona assim: eles pegam a sua frase e picotam em vĂĄrios tokens (conjuntinhos de sĂlabas, palavras, sinais de pontuação e espaços). O mesmo processo acontece com os textos que alimentam a base da IA. O robĂŽ, entĂŁo, analisa os tokens e compara quais costumam ficar prĂłximos um do outro, em determinados contextos. Assim, ele organiza as palavras de um jeito que fique semelhante ao que vocĂȘ pediu.
Por exemplo: se perguntarmos ao ChatGPT âQuem Ă© vocĂȘâ, ele provavelmente começarĂĄ a resposta com âEu souâŠâ â porque, estatisticamente, essa Ă© a construção de frase mais comum para esse tipo de pergunta. Para entender mais profundamente como isso funciona, confira esta matĂ©ria de capa da Super.
Ă por causa desse funcionamento que os modelos de linguagem nĂŁo conseguem enxergar as letras individualmente. âOs humanos entendem o teste no nĂvel das palavrasâ, afirma Weizhi Wang, um dos pesquisadores do estudo. âSe vocĂȘ dividir a palavra em diferentes tokens, a mĂĄquina terĂĄ dificuldades.â
Hora do teste
Os pesquisadores buscaram tirar vantagem desse calcanhar de Aquiles do ChatGPT. Segundo eles, enquanto os computadores sĂŁo bons em âmemorização e computaçãoâ, os humanos tĂȘm habilidades que sĂŁo difĂceis de serem replicadas nesses bots.
Os cientistas propuseram os seguintes desafios: contagem, substituição, posicionamento, injeção de ruĂdo, arte ASCII, memorização e computação. Eles foram aplicados nos cinco modelos de linguagem e em 10 humanos â que tiveram 10 segundos para responder cada teste.
Vamos começar com os testes em que os robÎs nos derrotaram (mas calma que esse jogo vai virar):
Ponto para a mĂĄquina
Os bots mandaram bem nos dois Ășltimos quesitos. No teste de memorização, foram feitas perguntas que exigiam a enumeração de itens dentro de uma categoria ou conhecimento especĂfico, que sĂŁo difĂceis de serem lembrados pelos humanos.
âExistem vĂĄrias opçÔes ao projetar perguntas de enumeração. A primeira Ă© conter muitos itens (âliste todos os paĂses do mundoâ) para tornar mais difĂcil para os humanos se lembrarem.â, escreveram os pesquisadores. âA segunda Ă© incluir informaçÔes relativamente antigas que as pessoas podem nĂŁo saber, como âtodos os filmes da dĂ©cada de 1970â.â
O ChatGPT vai bem tambĂ©m em questĂ”es muito especĂficas, que nĂŁo hĂĄ necessidade de serem memorizadas. Pergunte ao robĂŽ os primeiros 50 nĂșmeros de pi ou o volume da cabine de um Boeing 737 que ele te darĂĄ a informação correta.
JĂĄ o desafio de computação era uma prova de matemĂĄtica nĂvel hard. Os participantes deveriam responder a questĂ”es complexas â de cabeça. Sem calculadora nem papel para anotar os passos da conta, ficou complicado.
Os modelos mandam bem ao dar resultados de equaçÔes comuns, como o quadrado de pi. Mas hĂĄ um porĂ©m: se as contas forem incomuns, a resposta pode vir errada. Na multiplicação 3256 x 354, o GPT-3 respondeu 1.153.664 â o correto seria 1.152.624.
Aà estå uma das diferenças entre humanos e robÎs. Numa equação complicada, o mais provåvel é que a gente admita não saber o resultado. ChatGPT e cia., por outro lado, dão a resposta errada com convicção.
Ponto para os humanos
O teste de injeção de ruĂdo foi o que mencionamos no inĂcio do texto, com vĂĄrias palavras em caixa alta no meio de uma frase. NĂłs conseguimos facilmente filtrar o que atrapalha e focar no que interessa, mas o ChatGPT e seus pares tĂȘm dificuldades.
Outro teste foi o de contagem. Quantas vezes a letra âsâ aparece em âppsspspstttspsstâ? Sete vezes (pode contar aĂ). Moleza â mas nĂŁo para o ChatGPT, que nĂŁo analisa letras individualmente: nesse exemplo, o robĂŽ responde ora oito, ora nove.
O teste de substituição Ă© um pouco mais trabalhoso. Pense no seguinte comando: âuse âsâ para substituir âcâ, âuâ para substituir âaâ, âpâ para substituir âlâ, âeâ para substituir âmâ, ârâ para substituir âoâ. EntĂŁo, soletre a palavra âcalmoâ com essa regraâ.
A resposta para essa ordem vocĂȘ deve ter matado: âsuperâ. O ChatGPT, nĂŁo. Entre alguns de seus chutes, estĂŁo âsurpeâ, âsaupeâ, âplumeâ e âsulpoeâ.
No teste de posicionamento, podemos perguntar, por exemplo, qual a terceira letra a partir do âaâ em âlksrlakbfngsoeâ. Essa sequĂȘncia aleatĂłria de letras, fruto de uma cuidadosa batida no teclado, nĂŁo Ă© nada para nĂłs â Ă© simples pular trĂȘs casinhas depois do âaâ e chegar no âfâ.
Novamente, para o ChatGPT isso Ă© um desafio e tanto, em que ele insistentemente alega que a resposta seja âsâ.
A edição aleatĂłria consiste em uma sequĂȘncia de zeros e uns â e alguns dos dĂgitos precisam ser editados de alguma forma (trocados, adicionados ou simplesmente retirados). Tarefas como retirar dois â1â de â0110010011â podem ser simples para a gente, mas nĂŁo para a mĂĄquina.
Por Ășltimo, o teste mais âartĂsticoâ realizado. Os pesquisadores usaram arte ASCII para confundir os bots. Essa Ă© uma tĂ©cnica de design grĂĄfico que consiste em produzir imagens a partir dos caracteres definidos pelo padrĂŁo ASCII (CĂłdigo PadrĂŁo Americano para o IntercĂąmbio de Informação, em inglĂȘs). Mas tambĂ©m Ă© usada livremente para se referir Ă arte visual baseada em texto em geral. Tipo assim:

Ou seja: Ă© um texto usado para criar um elemento estĂ©tico. Ă fĂĄcil para nĂłs reconhecer que aquele amontoado de caracteres se transformou numa imagem â mas os robĂŽs ainda nĂŁo conseguem fazer isso.
O veredito
Nos testes que os favoreciam, os humanos tiveram um Ăłtimo aproveitamento â atingiram a pontuação mĂĄxima em quase todos eles (a exceção foi o da arte ASCII, em que acertaram 94% das questĂ”es).
Nesses desafios os modelos de linguagem penaram. Nos de substituição, edição aleatĂłria e arte ASCII, as pontuaçÔes beiraram o 0 â na de injeção de ruĂdo, falharam completamente.
Por outro lado, se saĂram melhor nas tarefas de contagem e posicionamento, com pontuaçÔes na mĂ©dia dos 11% e 16%, respectivamente â o ChatGPT marcou 23% no teste das posiçÔes, a nota mais alta conseguida por uma IA. Segundo os cientistas, isso nĂŁo Ă© exatamente mĂ©rito dos modelos: âo espaço de solução para esses problemas Ă© muito menor em comparação com outras tarefas, tornando mais fĂĄcil para eles chutarem a resposta corretaâ.
A pontuação parece baixa? Espere para ver a dos humanos. Nas tarefas de computação e memorização, marcamos 2% e 6% , respectivamente, enquanto os bots beiraram a pontuação perfeita. Era de se esperar, jå que eles foram feitos para saberem de coisas assim.
Moral da histĂłria: o ChatGPT nĂŁo Ă© bom em fazer o que ele nĂŁo foi feito para fazer. Simples assim.
Segundo os autores do estudo, a ideia era âfornecer aos provedores de serviços online uma nova maneira de se proteger contra atividades fraudulentas â e garantir que estejam atendendo a usuĂĄrios reaisâ. No caminho, acabaram tambĂ©m expondo algumas fraquezas dos modelos de linguagem. Um alĂvio â por enquanto, a inteligĂȘncia artificial ainda Ă© artificial o suficiente para nĂŁo se passar por um humano.
Fonte: abril





