OpenAI tests if GPT-4 can explain how AI works
Em um artigo recente, a OpenAI mostra como a inteligĂȘncia artificial pode ajudar a interpretar o funcionamento interno de grandes modelos de linguagem. A equipe usou o GPT-4 para gerar e avaliar explicaçÔes para os neurĂŽnios de seu antecessor mais velho, o GPT-2. O trabalho faz parte da pesquisa de alinhamento da OpenAI, que tem como objetivo ajudar a entender e guiar melhor o comportamento dos sistemas de IA.
A metodologia da OpenAI envolve trĂȘs etapas:
Ao final do processo, hĂĄ uma explicação da função de um neurĂŽnio GPT-2 em linguagem natural, como âDispara ao se referir a filmes, personagens e entretenimentoâ.
OpenAIâs GPT-4 tem um desempenho pior que humanos em explicar GPT-2
A equipe descobriu que quanto maior o modelo de linguagem a ser explicado, pior funciona esse mĂ©todo. Uma razĂŁo pode ser que os neurĂŽnios em camadas posteriores sejam mais difĂceis de explicar. No entanto, a equipe conseguiu melhorar as explicaçÔes geradas em certa medida usando abordagens como explicaçÔes iterativas. AlĂ©m disso, o GPT-4 fornece explicaçÔes melhores do que modelos menores â mas ainda piores do que os humanos.
A equipe gerou explicaçÔes para todos os 307.200 neurÎnios do GPT-2 usando o GPT-4. Entre eles, encontraram 1.000 explicaçÔes de neurÎnios com uma taxa de explicação de pelo menos 0,8, o que significa que explicaram a maioria do comportamento de ativação do neurÎnio após o uso do GPT-4, segundo a OpenAI.
De acordo com a OpenAI, a metodologia tem muitos problemas, como sua incapacidade de explicar o comportamento neuronal complexo ou os efeitos downstream das ativaçÔes. AlĂ©m disso, Ă© questionĂĄvel se uma explicação em linguagem natural Ă© possĂvel para todos os neurĂŽnios, e a abordagem nĂŁo fornece uma explicação mecanicista para o comportamento dos neurĂŽnios GPT-2, âo que poderia fazer com que nossa compreensĂŁo generalizasse incorretamenteâ.
A pesquisa de alinhamento da OpenAI depende de assistentes de IA
O objetivo da pesquisa Ă© criar mĂ©todos de interpretabilidade automĂĄticos que a empresa planeja usar para verificar se os modelos de linguagem estĂŁo alinhados. De particular importĂąncia Ă© a detecção de exemplos de mĂĄ generalização de objetivos ou alinhamento enganoso, âquando o modelo age alinhado durante a avaliação, mas buscaria objetivos diferentes durante a implementaçãoâ. Detectar isso requer uma compreensĂŁo profunda do comportamento interno.
Em seu trabalho, a OpenAI usou um modelo mais poderoso para explicar um mais fraco â o que poderia causar problemas se nĂŁo estivesse claro se o assistente em si Ă© confiĂĄvel. âEsperamos que o uso de modelos menores e confiĂĄveis para assistĂȘncia escalone para uma auditoria completa de interpretabilidade, ou aplicando-os Ă interpretabilidade nos ensinarĂĄ o suficiente sobre como os modelos funcionam para nos ajudar a desenvolver mĂ©todos de auditoria mais robustosâ.
A OpenAI liberou o conjunto de dados e código, bem como uma ferramenta de visualização para todos os neurÎnios do GPT-2. A empresa espera incentivar o desenvolvimento de metodologias melhores na pesquisa de alinhamento.
Fonte: Andre Lug