Habilidades emergentes em grandes modelos de linguagem geraram excitação e preocupação. Agora, pesquisadores de Stanford sugerem que essas habilidades podem ser mais uma miragem induzida por métricas do que um fenÎmeno real.
O surgimento repentino de novas habilidades ao dimensionar grandes modelos de linguagem Ă© um tĂłpico fascinante e uma razĂŁo para e contra o dimensionamento adicional desses modelos: o GPT-3 da OpenAI foi capaz de resolver tarefas matemĂĄticas simples acima de um certo nĂșmero de parĂąmetros, e um pesquisador do Google contou nada menos que 137 habilidades emergentes em benchmarks de PNL como o BIG-Bench.
Em geral, habilidades emergentes (ou capacidades) referem-se Ă quelas que de repente se manifestam em modelos acima de um tamanho especĂfico, mas estĂŁo ausentes em modelos menores. O aparecimento de tais saltos instantĂąneos e imprevisĂveis estimulou uma extensa pesquisa sobre as origens dessas habilidades e, mais crucialmente, sua previsibilidade. Isso ocorre porque, dentro do campo da pesquisa de alinhamento de IA, o surgimento imprevisto de habilidades de IA Ă© considerado um indicador preventivo de que redes de IA em grande escala podem inesperadamente desenvolver habilidades indesejadas ou atĂ© perigosas sem qualquer aviso.
Agora, em um novo trabalho de pesquisa, pesquisadores da Universidade de Stanford mostram que, embora modelos como o GPT-3 desenvolvam habilidades matemĂĄticas rudimentares, elas deixam de ser habilidades emergentes quando vocĂȘ muda a maneira como as mede.
Habilidades emergentes sĂŁo o resultado de uma mĂ©trica especĂfica
âColocamos em questĂŁo a afirmação de que os LLMs possuem habilidades emergentes, pelas quais queremos dizer especificamente mudanças nĂtidas e imprevisĂveis nas saĂdas do modelo em função da escala do modelo em tarefas especĂficasâ.
Normalmente, a capacidade de um modelo de linguagem grande Ă© medida em termos de precisĂŁo, que Ă© a proporção de previsĂ”es corretas do nĂșmero total de previsĂ”es. Essa mĂ©trica nĂŁo Ă© linear, e Ă© por isso que as mudanças na precisĂŁo sĂŁo vistas como saltos, disse a equipe.

âNossa explicação alternativa postula que as habilidades emergentes sĂŁo uma miragem causada principalmente pela escolha pelo pesquisador de uma mĂ©trica que deforma de forma nĂŁo linear ou descontĂnua as taxas de erro por token e, parcialmente, pela posse de poucos dados de teste para estimar com precisĂŁo o desempenho de modelos menores (fazendo com que modelos menores pareçam totalmente incapazes de executar a tarefa) e parcialmente pela avaliação de poucos modelos de grande escalaâ, afirma o artigo.
Usando uma mĂ©trica linear, como a distĂąncia de edição de token, uma mĂ©trica que calcula o nĂșmero mĂnimo de ediçÔes de um Ășnico token necessĂĄrias para transformar uma sequĂȘncia de tokens em outra, nĂŁo hĂĄ mais um salto visĂvel â em vez disso, uma melhoria suave, contĂnua e previsĂvel Ă© observada Ă medida que o nĂșmero de parĂąmetros aumenta.

Em seu trabalho, a equipe mostra que as capacidades emergentes do GPT-3 e de outros modelos sĂŁo devidas a essas mĂ©tricas nĂŁo lineares e que nenhum salto drĂĄstico Ă© aparente em uma mĂ©trica linear. AlĂ©m disso, os pesquisadores reproduzem esse efeito com modelos de visĂŁo computacional, nos quais a emergĂȘncia nĂŁo foi medida antes.
Habilidades emergentes sĂŁo âprovavelmente uma miragemâ
âA principal conclusĂŁo Ă© que, para uma tarefa fixa e uma famĂlia de modelos fixos, o pesquisador pode escolher uma mĂ©trica para criar uma habilidade emergente ou escolher uma mĂ©trica para eliminar uma habilidade emergenteâ, disse a equipe. âLogo, as habilidades emergentes podem ser criaçÔes das escolhas do pesquisador, nĂŁo uma propriedade fundamental da famĂlia modelo na tarefa especĂfica.â
No entanto, a equipe enfatiza que este trabalho nĂŁo deve ser interpretado como significando que grandes modelos de linguagem como GPT-4 nĂŁo podem ter habilidades emergentes. âEm vez disso, nossa mensagem Ă© que as habilidades emergentes anteriormente reivindicadas podem provavelmente ser uma miragem induzida por anĂĄlises de pesquisadoresâ.
Para pesquisas de alinhamento, este trabalho pode ser uma boa notĂcia, pois parece demonstrar a previsibilidade de habilidades em grandes modelos de linguagem. A OpenAI tambĂ©m mostrou em um relatĂłrio sobre o GPT-4 que pode prever com precisĂŁo o desempenho do GPT-4 em muitos benchmarks.
No entanto, como a equipe nĂŁo descarta a possibilidade de habilidades emergentes por si sĂł, a questĂŁo Ă© se tais habilidades jĂĄ existem. Um candidato pode ser âaprendizado de poucos tirosâ ou âaprendizado em contextoâ, que a equipe nĂŁo explora neste trabalho. Essa capacidade foi demonstrada pela primeira vez em detalhes no GPT-3 e Ă© a base para a engenharia rĂĄpida de hoje.
Fonte: Andre Lug