Tecnologia

OpenAI testa capacidade do GPT-4 em explicar funcionamento da inteligĂȘncia artificial em teste pioneiro.

2025 word3
Grupo do Whatsapp CuiabĂĄ

OpenAI tests if GPT-4 can explain how AI works

Em um artigo recente, a OpenAI mostra como a inteligĂȘncia artificial pode ajudar a interpretar o funcionamento interno de grandes modelos de linguagem. A equipe usou o GPT-4 para gerar e avaliar explicaçÔes para os neurĂŽnios de seu antecessor mais velho, o GPT-2. O trabalho faz parte da pesquisa de alinhamento da OpenAI, que tem como objetivo ajudar a entender e guiar melhor o comportamento dos sistemas de IA.

A metodologia da OpenAI envolve trĂȘs etapas:

Ao final do processo, há uma explicação da função de um neurînio GPT-2 em linguagem natural, como “Dispara ao se referir a filmes, personagens e entretenimento”.

OpenAI’s GPT-4 tem um desempenho pior que humanos em explicar GPT-2

A equipe descobriu que quanto maior o modelo de linguagem a ser explicado, pior funciona esse mĂ©todo. Uma razĂŁo pode ser que os neurĂŽnios em camadas posteriores sejam mais difĂ­ceis de explicar. No entanto, a equipe conseguiu melhorar as explicaçÔes geradas em certa medida usando abordagens como explicaçÔes iterativas. AlĂ©m disso, o GPT-4 fornece explicaçÔes melhores do que modelos menores – mas ainda piores do que os humanos.

A equipe gerou explicaçÔes para todos os 307.200 neurÎnios do GPT-2 usando o GPT-4. Entre eles, encontraram 1.000 explicaçÔes de neurÎnios com uma taxa de explicação de pelo menos 0,8, o que significa que explicaram a maioria do comportamento de ativação do neurÎnio após o uso do GPT-4, segundo a OpenAI.

De acordo com a OpenAI, a metodologia tem muitos problemas, como sua incapacidade de explicar o comportamento neuronal complexo ou os efeitos downstream das ativaçÔes. AlĂ©m disso, Ă© questionĂĄvel se uma explicação em linguagem natural Ă© possĂ­vel para todos os neurĂŽnios, e a abordagem nĂŁo fornece uma explicação mecanicista para o comportamento dos neurĂŽnios GPT-2, “o que poderia fazer com que nossa compreensĂŁo generalizasse incorretamente”.

A pesquisa de alinhamento da OpenAI depende de assistentes de IA

O objetivo da pesquisa Ă© criar mĂ©todos de interpretabilidade automĂĄticos que a empresa planeja usar para verificar se os modelos de linguagem estĂŁo alinhados. De particular importĂąncia Ă© a detecção de exemplos de mĂĄ generalização de objetivos ou alinhamento enganoso, “quando o modelo age alinhado durante a avaliação, mas buscaria objetivos diferentes durante a implementação”. Detectar isso requer uma compreensĂŁo profunda do comportamento interno.

Em seu trabalho, a OpenAI usou um modelo mais poderoso para explicar um mais fraco – o que poderia causar problemas se nĂŁo estivesse claro se o assistente em si Ă© confiĂĄvel. “Esperamos que o uso de modelos menores e confiĂĄveis para assistĂȘncia escalone para uma auditoria completa de interpretabilidade, ou aplicando-os Ă  interpretabilidade nos ensinarĂĄ o suficiente sobre como os modelos funcionam para nos ajudar a desenvolver mĂ©todos de auditoria mais robustos”.

A OpenAI liberou o conjunto de dados e código, bem como uma ferramenta de visualização para todos os neurÎnios do GPT-2. A empresa espera incentivar o desenvolvimento de metodologias melhores na pesquisa de alinhamento.

Fonte: Andre Lug

Sobre o autor

Avatar de FĂĄbio Neves

FĂĄbio Neves

Jornalista DRT 0003133/MT - O universo de cada um, se resume no tamanho do seu saber. Vamos ser a mudança que, queremos ver no Mundo