Na quarta-feira, a Stability AI lançou uma nova família de modelos de linguagem de IA de código aberto chamada StableLM. A Stability espera repetir os efeitos catalisadores de seu modelo de síntese de imagens de código aberto Stable Diffusion, lançado em 2022. Com refinamento, o StableLM pode ser usado para construir uma alternativa de código aberto ao ChatGPT.
O StableLM está atualmente disponível em formato alfa no GitHub em tamanhos de modelo de 3 bilhões e 7 bilhões de parâmetros, com 15 bilhões e 65 bilhões de modelos de parâmetros a serem seguidos, de acordo com a Stability. A empresa está lançando os modelos sob a licença Creative Commons BY-SA-4.0, que exige que as adaptações devam creditar o criador original e compartilhar a mesma licença.
A Stability AI Ltd. é uma empresa sediada em Londres que se posicionou como uma rival de código aberto da OpenAI, que, apesar de seu nome “aberto”, raramente lança modelos de código aberto e mantém seus pesos de rede neural – a massa de números que define a funcionalidade principal de um modelo de IA – proprietário.
“Os modelos de linguagem formarão a espinha dorsal da nossa economia digital, e queremos que todos tenham voz em seu design”, escreve Stability em um post de blog introdutório. “Modelos como o StableLM demonstram nosso compromisso com a tecnologia de IA que é transparente, acessível e solidária”.
Como o GPT-4, o modelo de linguagem grande (LLM) que alimenta a versão mais poderosa do ChatGPT-StableLM gera texto prevendo o próximo token (fragmento de palavra) em uma sequência. Essa sequência começa com informações fornecidas por um ser humano na forma de um “prompt”.Como resultado, o StableLM pode compor texto semelhante ao humano e escrever programas.
Como outros LLMs “pequenos” recentes como o LLaMA da Meta, Stanford Alpaca, Cerebras-GPT e Dolly 2.0, o StableLM pretende alcançar um desempenho semelhante ao modelo GPT-3 de referência da OpenAI, usando muito menos parâmetros – 7 bilhões para o StableLM versus 175 bilhões para o GPT-3.
Parâmetros são variáveis que um modelo de linguagem usa para aprender com dados de treinamento. Ter menos parâmetros torna um modelo de linguagem menor e mais eficiente, o que pode facilitar a execução em dispositivos locais, como smartphones e laptops. No entanto, alcançar alto desempenho com menos parâmetros requer engenharia cuidadosa, o que é um desafio significativo no campo da IA.
“Nossos modelos StableLM podem gerar texto e código e alimentam uma variedade de aplicativos downstream”, diz Stability. “Eles demonstram como modelos pequenos e eficientes podem oferecer alto desempenho com treinamento apropriado.”
De acordo com a Stability AI, o StableLM foi treinado em “um novo conjunto de dados experimentais” baseado em um conjunto de dados de código aberto chamado The Pile, mas três vezes maior. Stability afirma que a “riqueza” deste conjunto de dados, cujos detalhes promete lançar mais tarde, é responsável pelo “desempenho surpreendentemente alto” do modelo em tamanhos de parâmetros menores em tarefas de conversação e codificação.
Em nossos experimentos informais com uma versão aperfeiçoada do modelo 7B do StableLM construído para diálogo com base no método Alpaca, descobrimos que ele parecia ter um desempenho melhor (em termos de resultados que você esperaria, dado o prompt) do que o modelo LLaMA do parâmetro 7B bruto da Meta, mas não no nível do GPT-3. Versões de parâmetros maiores do StableLM podem ser mais flexíveis e capazes.
Em agosto do ano passado, a Stability financiou e divulgou o lançamento de código aberto do Stable Diffusion, desenvolvido por pesquisadores do grupo CompVis da Universidade Ludwig Maximilian de Munique.
Como um modelo inicial de difusão latente de código aberto que poderia gerar imagens a partir de prompts, a Stable Diffusion iniciou uma era de rápido desenvolvimento na tecnologia de síntese de imagens. Também criou uma forte reação entre artistas e entidades corporativas, algumas das quais processaram a Stability AI. A mudança da estabilidade para modelos de linguagem poderia inspirar resultados semelhantes.
Os usuários podem testar o modelo base StableLM de 7 bilhões de parâmetros Hugging Face e o modelo ajustado no Replicate. Além disso, o Hugging Face hospeda uma versão sintonizada em diálogo do StableLM com um formato de conversa semelhante ao ChatGPT.
A Stability diz que divulgará um relatório técnico completo sobre o StableLM “no futuro próximo”.
Fonte: Andre Lug