Tecnologia

Pesquisadores desmistificam habilidades emergentes assustadoras da IA: elas sĂŁo apenas uma miragem

2025 word3
Grupo do Whatsapp CuiabĂĄ

Habilidades emergentes em grandes modelos de linguagem geraram excitação e preocupação. Agora, pesquisadores de Stanford sugerem que essas habilidades podem ser mais uma miragem induzida por métricas do que um fenÎmeno real.

O surgimento repentino de novas habilidades ao dimensionar grandes modelos de linguagem Ă© um tĂłpico fascinante e uma razĂŁo para e contra o dimensionamento adicional desses modelos: o GPT-3 da OpenAI foi capaz de resolver tarefas matemĂĄticas simples acima de um certo nĂșmero de parĂąmetros, e um pesquisador do Google contou nada menos que 137 habilidades emergentes em benchmarks de PNL como o BIG-Bench.

Em geral, habilidades emergentes (ou capacidades) referem-se àquelas que de repente se manifestam em modelos acima de um tamanho específico, mas estão ausentes em modelos menores. O aparecimento de tais saltos instantùneos e imprevisíveis estimulou uma extensa pesquisa sobre as origens dessas habilidades e, mais crucialmente, sua previsibilidade. Isso ocorre porque, dentro do campo da pesquisa de alinhamento de IA, o surgimento imprevisto de habilidades de IA é considerado um indicador preventivo de que redes de IA em grande escala podem inesperadamente desenvolver habilidades indesejadas ou até perigosas sem qualquer aviso.

Agora, em um novo trabalho de pesquisa, pesquisadores da Universidade de Stanford mostram que, embora modelos como o GPT-3 desenvolvam habilidades matemĂĄticas rudimentares, elas deixam de ser habilidades emergentes quando vocĂȘ muda a maneira como as mede.

Habilidades emergentes são o resultado de uma métrica específica

“Colocamos em questão a afirmação de que os LLMs possuem habilidades emergentes, pelas quais queremos dizer especificamente mudanças nítidas e imprevisíveis nas saídas do modelo em função da escala do modelo em tarefas específicas”.

Normalmente, a capacidade de um modelo de linguagem grande Ă© medida em termos de precisĂŁo, que Ă© a proporção de previsĂ”es corretas do nĂșmero total de previsĂ”es. Essa mĂ©trica nĂŁo Ă© linear, e Ă© por isso que as mudanças na precisĂŁo sĂŁo vistas como saltos, disse a equipe.

Dependendo da métrica, uma habilidade emergente pode ou não aparecer. A equipe, portanto, chama isso de miragem.

Dependendo da métrica, uma habilidade emergente pode ou não aparecer. A equipe, portanto, chama isso de miragem.

Dependendo Da Métrica, Uma Habilidade Emergente Pode Ou Não Aparecer. A Equipe, Portanto, Chama Isso De Miragem. | Imagem: Schaeffer Et Al.

“Nossa explicação alternativa postula que as habilidades emergentes sĂŁo uma miragem causada principalmente pela escolha pelo pesquisador de uma mĂ©trica que deforma de forma nĂŁo linear ou descontĂ­nua as taxas de erro por token e, parcialmente, pela posse de poucos dados de teste para estimar com precisĂŁo o desempenho de modelos menores (fazendo com que modelos menores pareçam totalmente incapazes de executar a tarefa) e parcialmente pela avaliação de poucos modelos de grande escala”, afirma o artigo.

Usando uma mĂ©trica linear, como a distĂąncia de edição de token, uma mĂ©trica que calcula o nĂșmero mĂ­nimo de ediçÔes de um Ășnico token necessĂĄrias para transformar uma sequĂȘncia de tokens em outra, nĂŁo hĂĄ mais um salto visĂ­vel – em vez disso, uma melhoria suave, contĂ­nua e previsĂ­vel Ă© observada Ă  medida que o nĂșmero de parĂąmetros aumenta.

O efeito também é evidente nas habilidades matemåticas do GPT-3.

O efeito também é evidente nas habilidades matemåticas do GPT-3.

O Efeito TambĂ©m É Evidente Nas Habilidades MatemĂĄticas Do Gpt-3. | Imagem: Schaeffer Et Al.

Em seu trabalho, a equipe mostra que as capacidades emergentes do GPT-3 e de outros modelos sĂŁo devidas a essas mĂ©tricas nĂŁo lineares e que nenhum salto drĂĄstico Ă© aparente em uma mĂ©trica linear. AlĂ©m disso, os pesquisadores reproduzem esse efeito com modelos de visĂŁo computacional, nos quais a emergĂȘncia nĂŁo foi medida antes.

Habilidades emergentes são “provavelmente uma miragem”

“A principal conclusĂŁo Ă© que, para uma tarefa fixa e uma famĂ­lia de modelos fixos, o pesquisador pode escolher uma mĂ©trica para criar uma habilidade emergente ou escolher uma mĂ©trica para eliminar uma habilidade emergente”, disse a equipe. “Logo, as habilidades emergentes podem ser criaçÔes das escolhas do pesquisador, nĂŁo uma propriedade fundamental da famĂ­lia modelo na tarefa especĂ­fica.”

No entanto, a equipe enfatiza que este trabalho nĂŁo deve ser interpretado como significando que grandes modelos de linguagem como GPT-4 nĂŁo podem ter habilidades emergentes. “Em vez disso, nossa mensagem Ă© que as habilidades emergentes anteriormente reivindicadas podem provavelmente ser uma miragem induzida por anĂĄlises de pesquisadores”.

Para pesquisas de alinhamento, este trabalho pode ser uma boa notícia, pois parece demonstrar a previsibilidade de habilidades em grandes modelos de linguagem. A OpenAI também mostrou em um relatório sobre o GPT-4 que pode prever com precisão o desempenho do GPT-4 em muitos benchmarks.

No entanto, como a equipe nĂŁo descarta a possibilidade de habilidades emergentes por si sĂł, a questĂŁo Ă© se tais habilidades jĂĄ existem. Um candidato pode ser “aprendizado de poucos tiros” ou “aprendizado em contexto”, que a equipe nĂŁo explora neste trabalho. Essa capacidade foi demonstrada pela primeira vez em detalhes no GPT-3 e Ă© a base para a engenharia rĂĄpida de hoje.

Fonte: Andre Lug

Sobre o autor

Avatar de FĂĄbio Neves

FĂĄbio Neves

Jornalista DRT 0003133/MT - O universo de cada um, se resume no tamanho do seu saber. Vamos ser a mudança que, queremos ver no Mundo