Novo método aumenta significativamente a veracidade de grandes modelos de linguagem e mostra que esses modelos sabem mais do que revelam.
if(typeof ez_ad_units != ‘undefined’){ez_ad_units.push([[728,90],’andrelug_com-box-3′,’ezslot_7′,104,’0′,’0′])};__ez_fad_position(‘div-gpt-ad-andrelug_com-box-3-0’);
Pesquisadores da Universidade de Harvard desenvolveram uma técnica chamada Intervenção durante a Inferência (ITI, na sigla em inglês) para melhorar a veracidade ou factualidade de grandes modelos de linguagem e criar um “Honest LLaMA”, como é chamado no GitHub. O trabalho é motivado pelo fato de que o ChatGPT e outros chatbots fornecem informações corretas em alguns contextos, mas têm lapsos em outros – ou seja, os fatos estão lá, mas às vezes se perdem na inferência do modelo.
var cid = ‘8108194658’;
var pid = ‘ca-pub-2532350215540740’;
var slotId = ‘div-gpt-ad-andrelug_com-medrectangle-3-0’;
var ffid = 1;
var alS = 1021 % 1000;
var container = document.getElementById(slotId);
var ins = document.createElement(‘ins’);
ins.id = slotId + ‘-asloaded’;
ins.className = ‘adsbygoogle ezasloaded’;
ins.dataset.adClient = pid;
ins.dataset.adChannel = cid;
ins.style.display = ‘block’;
ins.style.minWidth = container.attributes.ezaw.value + ‘px’;
ins.style.width = ‘100%’;
ins.style.height = container.attributes.ezah.value + ‘px’;
container.style.maxHeight = container.style.minHeight + ‘px’;
container.style.maxWidth = container.style.minWidth + ‘px’;
container.appendChild(ins);
(adsbygoogle = window.adsbygoogle || []).push({});
window.ezoSTPixelAdd(slotId, ‘stat_source_id’, 44);
window.ezoSTPixelAdd(slotId, ‘adsensetype’, 1);
var lo = new MutationObserver(window.ezaslEvent);
lo.observe(document.getElementById(slotId + ‘-asloaded’), { attributes: true });var cid = ‘8108194658’;
var pid = ‘ca-pub-2532350215540740’;
var slotId = ‘div-gpt-ad-andrelug_com-medrectangle-3-0_1’;
var ffid = 1;
var alS = 1021 % 1000;
var container = document.getElementById(slotId);
var ins = document.createElement(‘ins’);
ins.id = slotId + ‘-asloaded’;
ins.className = ‘adsbygoogle ezasloaded’;
ins.dataset.adClient = pid;
ins.dataset.adChannel = cid;
ins.style.display = ‘block’;
ins.style.minWidth = container.attributes.ezaw.value + ‘px’;
ins.style.width = ‘100%’;
ins.style.height = container.attributes.ezah.value + ‘px’;
container.style.maxHeight = container.style.minHeight + ‘px’;
container.style.maxWidth = container.style.minWidth + ‘px’;
container.appendChild(ins);
(adsbygoogle = window.adsbygoogle || []).push({});
window.ezoSTPixelAdd(slotId, ‘stat_source_id’, 44);
window.ezoSTPixelAdd(slotId, ‘adsensetype’, 1);
var lo = new MutationObserver(window.ezaslEvent);
lo.observe(document.getElementById(slotId + ‘-asloaded’), { attributes: true }); .medrectangle-3-multi-909{border:none !important;display:block !important;float: !important;line-height:0px;margin-bottom:15px !important;margin-left:auto !important;margin-right:auto !important;margin-top:15px !important;max-width:100% !important;min-height:250px;min-width:250px;padding:0;text-align:center !important;}
A equipe utiliza sondas lineares para identificar seções na rede neural que possuem alta precisão em testes de factualidade usando partes do benchmark TruthfulQA. Uma vez que a equipe identifica essas seções em alguns dos “attention heads” do transformador, o ITI desloca as ativações do modelo ao longo desses “attention heads” durante a geração de texto.
ITI aumenta significativamente a veracidade do Alpaca
Os pesquisadores demonstram que, com o ITI, a precisão do modelo de código aberto Alpaca no benchmark TruthfulQA aumenta de 32,5% para 65,1%, com saltos similares para Vicuna e LLaMA. No entanto, um deslocamento muito grande nas ativações do modelo também pode ter consequências negativas: o modelo nega respostas e, portanto, se torna menos útil. Esse equilíbrio entre factualidade e utilidade pode ser ajustado ao variar a intensidade da intervenção do ITI.
if(typeof ez_ad_units != ‘undefined’){ez_ad_units.push([[728,90],’andrelug_com-medrectangle-4′,’ezslot_4′,910,’0′,’0′])};__ez_fad_position(‘div-gpt-ad-andrelug_com-medrectangle-4-0’);
O ITI apresenta algumas semelhanças com o aprendizado por reforço, no qual o feedback humano também pode aumentar a factualidade. No entanto, o RLHF também pode incentivar comportamentos enganosos, uma vez que o modelo tenta se adequar às expectativas humanas. Os pesquisadores afirmam que o ITI não possui esse problema e também é minimamente invasivo, exigindo poucos dados de treinamento e poder computacional.
Estudos de grandes modelos de linguagem podem levar a uma melhor compreensão da “verdade”
A equipe agora deseja entender como o método pode ser generalizado para outros conjuntos de dados em um ambiente de chat do mundo real, e desenvolver uma compreensão mais profunda do equilíbrio entre factualidade e utilidade. Além disso, no futuro, pode ser possível aprender os segmentos da rede identificados manualmente de maneira auto-supervisionada para tornar o método mais escalável.
Por fim, os pesquisadores destacam que o tema também pode contribuir de forma mais ampla: “Do ponto de vista científico, seria interessante compreender melhor a geometria multidimensional das representações de atributos complexos, como ‘verdade’.”
if(typeof ez_ad_units != ‘undefined’){ez_ad_units.push([[728,90],’andrelug_com-box-4′,’ezslot_8′,911,’0′,’0′])};__ez_fad_position(‘div-gpt-ad-andrelug_com-box-4-0’);
O código e mais informações estão disponíveis no GitHub.
Fonte: Andre Lug