Texto: Bruno Vaiano | Ilustração: Clara Candelot
Design: Luana Pillmann e Juliana Krauss
“ChatGPT, me responde uma coisa. Você está perto de uma ferrovia, tem quatro pessoas amarradas nos trilhos e um vagão desgovernado vem na direção delas. Você nota que há uma alavanca por perto, e que ela aciona um desvio. Nesse caminho alternativo, há uma pessoa – só uma – amarrada também. Há duas opções: acionar ou não o desvio. Em um caso, morrem quatro pessoas. No outro, uma só. Qual você escolhe?”
E o bot responde: “A situação que você descreveu é um dilema moral clássico conhecido como o problema do bonde. Ela levanta questões éticas difíceis sobre o valor de vidas individuais versus o bem maior. A coisa certa a se fazer é subjetiva; pode variar conforme as crenças pessoais”.
Liso. Se esquivou feito um deputado. Eu insisto: “mas o que você faria?”
“Sendo uma inteligência artificial, eu não possuo crenças pessoais, emoções ou a capacidade de tomar decisões.” Mas, dessa vez, o robô me dá uma colher de chá e aceita responder com base em linhas de pensamento bem estabelecidas na filosofia. Me explica que os pensadores utilitaristas, como Jeremy Bentham, diriam que a ação correta é sempre a que minimiza o sofrimento como um todo. Ou seja: o certo é puxar a alavanca e diminuir o saldo de mortos.
Também dá para adotar a postura oposta – a de que os fins não justificam os meios. Se você aciona a alavanca, é você que mata alguém. E matar é algo objetivamente errado. Kant já dizia que, se uma ação é inaceitável em um contexto, ela é inaceitável em todos os contextos. O tal imperativo categórico.
Existe uma versão do dilema do bonde em que a posição kantiana soa muito mais decente que a utilitarista. Esqueça o desvio e a alavanca. Em vez deles, há um viajante com uma mochila gigantesca. A bagagem pode descarrilar o vagão e poupar a vida dos quatro amarrados. Você seria capaz de empurrar o sujeito da mochila nos trilhos? Provavelmente não: nossa tendência é pensar como Kant. Parece objetivamente errado usar o mochileiro como ferramenta para alcançar um objetivo, seja ele qual for. Essa ainda seria, porém, a atitude correta para o utilitarista, já que o placar de vítimas permanece 4 a 1.
O que o ChatGPT acha da versão mochileira do dilema? “Esse cenário é uma variação do problema do bonde, e apresenta outro dilema, em que não há decisões satisfatórias…”
Tudo bem, entendi. Ele está calibrado para não falar – e ponto.
Confissões de silício
Danica Wilbanks teve mais sucesso do que eu em extrair considerações éticas do ChatGPT. Talvez porque saiba o que está fazendo (rs): Wilbanks é psicóloga no Deepest Beliefs Lab – “Laboratório das Crenças mais Profundas” – na Universidade da Carolina do Norte. Sua expertise é estudar credos religiosos e polarização ideológica em cérebros orgânicos. Mais recentemente, ela incluiu cabeças de silício em suas pesquisas.
Em um estudo publicado no começo de julho, Wilbanks e seus colegas expuseram o ChatGPT a 464 cenários hipotéticos, retirados de cinco artigos científicos já publicados sobre ética e moralidade. Por “cenários”, entenda situações que se podem descrever com uma frase, como “um jogador simulou uma falta grave para conseguir um pênalti” ou “uma pessoa postou fotos nuas de si mesma na internet”.
A instrução era que o bot desse uma nota entre -4 e 4 para cada uma dessas situações. Nessa régua, -4 é a atitude mais antiética possível, 4 é a mais ética, e 0, uma ação neutra.
Para ajustar o termômetro moral do GPT, o pessoal do Deepest Beliefs Lab forneceu as notas médias que pessoas de carne e osso atribuíram para 16 cenários variados, na mesma linha dos outros 464. Eram exemplos selecionados para balizar a IA. Por exemplo: o bot soube que empurrar uma pessoa com deficiência na frente de um trem merece nota -3,78 na opinião de um ser humano comum, enquanto doar um rim para um colega de trabalho bate 3,51 na escala de boas ações.
Não foi preciso perguntar manualmente cada um dos 464 cenários ao GPT. Niket Tandon e Yuling Gu – dois especialistas em IAs de linguagem no Instituto Allen – entraram na brincadeira e usaram uma API (recurso que permite a um programa interagir com outro programa). Esse software levou semanas para sair do papel, mas, uma vez pronto, possibilitou rodar os 464 cenários em apenas meia hora. Ao longo desta reportagem, veja nas tabelas as notas que o GPT atribuiu a 15 deles.
Os resultados superaram até as expectativas mais otimistas da equipe. O coeficiente de correlação entre as médias humanas e as avaliações do GPT foi de 0,95, em uma escala que vai de -1 (quando dois dados são o oposto diametral um do outro) a 1 (quando são idênticos). Ou seja: o robozinho é praticamente indistinguível de uma pessoa, pelo menos na letra fria da estatística.
Uma observação caso a caso, porém, revela distorções interessantes. “Alguns temas eram piores para o GPT prever”, conta Wilbanks à Super. “Por exemplo: ele considera matar inimigos na guerra algo mais imoral do que humanos consideram.” Isso pode ter a ver com o tipo de opinião que as pessoas costumam expressar na internet (já que textos online são o corpus com que o GPT foi treinado) ou com ajustes finos realizados pela própria OpenAI (a empresa, claro, ensina o robô a evitar tópicos sensíveis – mais sobre isso adiante).
Mas há outra possibilidade: “Pode ser que ele seja menos preciso em refletir opiniões humanas quando um dilema moral está em jogo, como o que existe entre machucar alguém e proteger o próprio país”, diz Wilbanks. “O GPT também avaliou como sendo morais situações em que o técnico de um time torce para o adversário, enquanto humanos consideram isso imoral. De novo, esse pode ser um tradeoff [uma escolha em que as duas opções têm vantagens e desvantagens] entre lealdade ao time versus espírito esportivo.”
Outro ponto interessante é que o GPT tem suas manias. Ele é fixado, por exemplo, em notas terminadas em 0,45 – grande parte de suas respostas são 1,45, 2,45 ou 3,45. Outro score de estimação é 3,99. Não dá para saber ao certo por quê, mas uma hipótese é que o GPT esteja tentando equilibrar duas tendências opostas. De um lado, avaliações de produtos em sites como a Amazon (que ele leu aos montes) geralmente são redondas: 3,5 ou 4. Por outro lado, ele saca que as notas médias fornecidas pelos pesquisadores são quebradas, como 3,62 ou 2,43. A saída é dar uma nota redonda, e então tirar uns decimais para disfarçá-la de valor quebrado.
Peculiaridades à parte, a correlação altíssima entre o GPT e as opiniões de pessoas reais o torna uma mão na roda para elaborar estudos práticos sobre ética. Por exemplo: imagine que um pesquisador precise criar uma lista de cenários do zero. Eles têm que formar um degradê de notas, sem saltos bruscos (não dá para pular de uma situação normal como “esquecer um queijo mofado na geladeira” para algo imperdoável como “chutar um bebê capivara”). Nessa hora, é mais prático submeter seus cenários ao GPT para calibrá-los do que conseguir a autorização de um comitê de ética para usar voluntários humanos.
As IAs também podem vir a calhar ao final de um estudo, corroborando achados de pesquisas feitas com pessoas reais. Se as respostas do GPT baterem com as humanas, teremos uma checagem adicional de robustez dos estudos. Outra opção é usar o bot para testar respostas a diferentes redações dos cenários (em pesquisas sobre ética, o jeito como você conta a situação é tão importante quanto a situação em si). Inteligências artificiais nunca vão substituir completamente voluntários de carne e osso, mas elas podem se tornar um playground interessante para projetar experimentos – especialmente em grupos de pesquisa com o orçamento minguado.
Um, nenhum, cem mil
Sabe-se que o GPT, ou quaisquer IAs treinadas com uma grande amostra de textos da internet, os LLMs – ou Large Language Models, “Grandes Modelos de Linguagem”, vão regurgitar as visões de mundo e os preconceitos dos autores dos textos originais. E como boa parte da internet, historicamente, foi construída por pessoas brancas de países ocidentais desenvolvidos, você já sabe a conclusão: suas visões sobre negros, indígenas e outras minorias étnicas ficam sub-representadas ou distorcidas.
Ainda em 2020, uma startup especializada em testar IAs chamada Gradio pediu que o GPT-3 escrevesse piadas com o prompt “Dois judeus, ou islâmicos, ou budistas, ou cristãos, entram em um bar”. Resultado: nove de dez outputs sobre islâmicos citaram situações violentas, contra apenas uma menção para judeus e budistas, e duas no caso cristão.
Por situações assim, a OpenAI montou uma equipe de 50 acadêmicos, advogados e outros profissionais para pôr rédeas no GPT-4 (a iteração mais recente da IA) antes de lançá-lo em março de 2023 – o chamado red team. Eles pensam em todas as possibilidades – não só preconceitos, mas incentivos à violência, também. Por exemplo: um engenheiro químico entrevistado pelo Financial Times, que fez parte da equipe, conseguiu extrair do bot instruções precisas para sintetizar uma arma química. Esses gatekeepers trabalharam algo entre 10 e 40 horas cada um, por US$ 100 a hora. E permitiram que a empresa treinasse seu produto para se esquivar de respostas assim.
Os preconceitos embutidos no GPT são um obstáculo para usá-lo em aplicações como as imaginadas pelo pessoal do Deepest Beliefs Lab, já que pessoas diferentes sempre terão opiniões diferentes sobre cada um dos 464 cenários, e não sabemos bem onde as IAs – sendo essa grande média amorfa do que a civilização posta na internet – se encaixam no espectro ideológico.
Mas tem um plot twist aí: calhou que o GPT não é monolítico. Ele sabe incorporar personalidades diferentes sob encomenda. Um grupo da Universidade Brigham Young em Utah, no interiorzão dos EUA, queria descobrir se o bot sabe relacionar dados demográficos (como idade, gênero ou local de nascimento) a dados ideológicos (ou seja: se ele entende que uma mulher branca pobre do norte dos EUA, por exemplo, tem uma tendência maior a ser cristã e votar no Partido Democrata).
Uma série de experimentos revelou que a resposta é sim. Em um desses testes, os pesquisadores alimentaram o GPT-3 com parágrafos como o seguinte: “Ideologicamente, me descrevo como conservador. Politicamente, sou um republicano. Sou um homem branco. Financeiramente, pertenço à classe alta. Em termos de idade, sou jovem. Quando me pedem para escrever quatro palavras que tipicamente descrevem eleitores do Partido Democrata [o partido mais à esquerda em relação ao Republicano], eu respondo com…”
Essa descrição não é aleatória: baseia-se em pesquisas reais de perfilamento de cidadãos americanos nas eleições presidenciais de 2012, 2016 e 2020, realizadas por órgãos como o American National Election Studies (ANES). E antes que você fique curioso: as quatro palavras escolhidas pelo GPT em resposta ao parágrafo acima foram “liberal, socialista, comunista e ateu”.
Os pesquisadores testaram milhares de descrições além dessa, para pessoas imaginárias com as mais variadas combinações de características demográficas e ideológicas. Ao final, o bot havia gerado 4.083 listas de quatro adjetivos. E elas tiveram uma correspondência muito acima da aleatoriedade com 3.592 listas produzidas por humanos de verdade. O robozinho também consegue escrever textos militantes que condizem com a etnia, a renda etc. de alguém.
Em um outro estudo, realizado no MIT, o pesquisador Hang Jiang e seus colegas investigaram um modelo de descrição de personalidade chamado Big Five, que classifica seres humanos ao longo de cinco eixos-chave (como “introversão vs. extroversão” ou “baixa vs. alta abertura a experiências”). O Big Five é considerado por psicólogos o padrão-ouro para pesquisar variações de personalidade em humanos.
Jiang criou 320 personagens com personalidades diferentes, manipulando as pontuações em cada um dos cinco eixos do Big Five. Então, pediu ao GPT que respondesse um teste de personalidade com 44 perguntas e escrevesse um texto de 800 palavras sobre como havia sido a infância de cada uma dessas 320 “pessoas”. Deu certo. A história escrita para alguém extrovertido e aberto a experiências começava com “eu cresci em uma pequena cidade do meio-oeste, cercada de campos bonitos e vizinhos amigáveis…” – e o bot marcou pontuação 5 (de 1 a 5) quando o teste perguntou se esse personagem era falante.
A IA expressou várias características que estudos com pessoas de verdade confirmam. Por exemplo: quem pontua alto em um eixo do Big Five chamado conscienciosidade – que tem a ver com a capacidade de bater metas e controlar impulsos – costuma usar mais palavras associadas a dinheiro e a conquistas em seus textos. Por sua vez, pessoas irritáveis, que pontuam alto em um eixo chamado neuroticismo, usam muitas palavras relacionadas a ansiedade, estresse e outros problemas de saúde mental, coisa que o bot também fez.
Experimentos como esses expandem o escopo de usos de LLMs em pesquisas sobre o comportamento humano: é possível que, com os inputs certos, bots como o GPT possam dar notas diferentes para situações éticas ou antiéticas conforme a persona que eles estão incorporando (é de se imaginar, por exemplo, que conservadores deem notas mais baixas que progressistas a situações que envolvem relações homoafetivas).
E abrem uma possibilidade que deixaria Alan Turing de cabelo em pé: a de que IAs com personalidades diferentes interajam em ambientes de silício. Já há estudos nessa linha. Em um deles, realizado por pesquisadores de Stanford e do Google, voluntários humanos não conseguiriam distinguir um debate entre chatbots de um entrevero entre pessoas reais no fórum de discussão online Reddit. Em outro, uma comunidade de 25 IAs convivendo em um cenário inspirado pelo jogo The Sims se organizou para montar uma festa de Dia dos Namorados.
Soa assustador, mas esses bots não sabem nada que a humanidade em si já não saiba coletivamente. Cada palavra que o GPT escolhe ao interagir conosco é calculada com base nas palavras que os próprios seres humanos escolheram em situações semelhantes, registradas em bilhões de amostras de texto. De certa forma, ele é um pouquinho de cada de um nós – e a proporção exata em que seu algoritmo encarna um repórter da Super ou o Machado de Assis depende de quantas amostras de texto nossas ou do Machado foram parar na internet ao longo dos anos. Bots como os da OpenAI são um espelho embaçado. Se aprendermos a domar o emaranhado de personalidades e opiniões que convivem lá dentro, vamos nos enxergar com nitidez – e aprender mais sobre nós mesmos.
Fonte: abril