ChatGLM: um modelo de PNL de código aberto treinado em 1 trilhão de tokens, capaz de compreender inglês e chinês

ChatGLM (versão de teste interna alfa: QAGLM) é um robô de chat projetado especificamente para usuários chineses. Ele utiliza um modelo de linguagem chinês-inglês com 100 bilhões de tokens, com recursos de perguntas e respostas e conversação. Ele foi ajustado, o teste interno restrito está em andamento e sua abrangência será ampliada ao longo do tempo.

Além disso, os pesquisadores lançaram o novo modelo de discussão bilíngue chinês-inglês, ChatGLM-6B, que, em conjunto com a tecnologia de quantização do modelo, pode ser implantado localmente em placas gráficas de uso comum (INT4). Isso segue o modelo GLM-130B 100 bilhões de tokens de código aberto. No nível de quantização, apenas 6 GB de memória de vídeo são necessários.

O ChatGLM-6B, com 6,2 bilhões de parâmetros, é menor do que os modelos de 100 bilhões, mas reduz significativamente o limiar para implantação do usuário. Após aproximadamente 1 trilhão de identificadores de treinamento bilíngue chinês-inglês, ele gerou respostas alinhadas com as preferências humanas, complementadas por supervisão e ajuste fino, feedback de autoajuda, reforço de aprendizado com feedback humano e outras tecnologias.

Índice

1 ChatGLM

2 Vantagens e recursos-chave do ChatGLM

3 Desafios e Limitações

4 ChatGLM-130B

5 ChatGLM-6B

6 Recursos que diferenciam o ChatGLM-6B:

7 Limitações do ChatGLM-6B:

ChatGLM

O ChatGLM parte do conceito do ChatGPT como ponto de partida, incorporando o treinamento prévio de código no modelo base GLM-130B 1 de 100 bilhões de tokens, alcançando o alinhamento com a intenção humana usando o Ajuste Fino Supervisionado e outros métodos. O modelo base exclusivo GLM-130B de 100 bilhões de tokens é em grande parte responsável pelo aumento das capacidades na versão atual do ChatGLM. Esse modelo é uma arquitetura de treinamento prévio autoregressiva com inúmeras funções de objetivo, diferentemente do BERT, GPT-3 ou T5. Os pesquisadores disponibilizaram o modelo denso GLM-130B 1 com 130 bilhões de parâmetros para as comunidades acadêmica e empresarial em agosto de 2022.

Vantagens e recursos-chave do ChatGLM

Desafios e Limitações

ChatGLM-130B

O Centro de Modelos Grandes da Universidade de Stanford avaliou 30 dos modelos grandes mais populares em todo o mundo em novembro de 2022, e o GLM-130B foi o único modelo da Ásia a ser selecionado. De acordo com o relatório de avaliação, em termos de indicadores de precisão e malícia, robustez e erro de calibração, o GLM-130B se aproxima ou é igual ao GPT-3 175B (davinci) para todos os modelos grandes de pedestal na escala de 100 bilhões. Isso se compara aos principais modelos da OpenAI, Google Brain, Microsoft, Nvidia e Facebook.

ChatGLM-6B

O ChatGLM-6B é um modelo de linguagem chinês-inglês com 6,2 bilhões de parâmetros. Ele é um sistema de pergunta e resposta e discussão em chinês que utiliza a mesma tecnologia do ChatGLM (chatglm.cn) para ser executado em uma única 2080Ti e permitir o raciocínio. Os pesquisadores disponibilizaram o modelo ChatGLM-6B como código aberto simultaneamente para facilitar o desenvolvimento da comunidade em tecnologias de modelos grandes.

O modelo ChatGLM-6B é uma versão multilíngue de código aberto com 6,2 bilhões de parâmetros do framework Generic Language Model (GLM). O método de quantização permite que os usuários o implantem localmente em hardware gráfico de baixo custo.

Usando um método muito semelhante ao do ChatGPT, o ChatGLM-6B foi projetado para facilitar sessões de pergunta e resposta em mandarim. Os pesquisadores utilizaram o ajuste fino supervisionado, o bootstrap de feedback e o aprendizado por reforço com entrada humana para treinar o modelo com um corpus combinado de 1 trilhão de tokens em chinês e inglês. O modelo pode responder consistentemente às escolhas humanas, com cerca de 6,2 bilhões de parâmetros.