Novo método revoluciona o algoritmo de Stable Diffusion e dispensa dados de treinamento

A Difusão Estável encontra o Aprendizado por Reforço – demonstrando como treinar efetivamente modelos de IA generativa para imagens em tarefas secundárias.

Os modelos de difusão agora são padrão na síntese de imagens e têm aplicações na síntese artificial de proteínas, onde podem auxiliar no design de medicamentos. O processo de difusão converte ruído aleatório em um padrão, como uma imagem ou estrutura de proteína.

Durante o treinamento, os modelos de difusão aprendem a reconstruir o conteúdo incrementalmente a partir dos dados de treinamento. Pesquisadores estão agora tentando intervir nesse processo usando aprendizado por reforço para ajustar modelos de IA generativa e alcançar objetivos específicos, como melhorar a qualidade estética das imagens. Isso é inspirado no ajuste fino de grandes modelos de linguagem, como o ChatGPT da OpenAI.

Índice

1 Aprendizado por reforço para imagens mais estéticas?

2 Novo método não requer dados de treinamento

Aprendizado por reforço para imagens mais estéticas?

Um novo artigo do Berkeley Scientific Intelligence Research examina a eficácia do aprendizado por reforço usando a Otimização de Política de Difusão com Redução de Ruído (DDPO) para ajuste fino em diferentes objetivos.

A equipe treina a Stable Diffusion em quatro tarefas:

LLaVA ajuda a aproximar o prompt e a imagem. | Imagem: BAIR — Llava Ajuda A Aproximar O Prompt E A Imagem. | Imagem: Bair

Em seus testes, a equipe demonstrou que o DDPO pode ser usado de forma eficaz para otimizar as quatro tarefas. Além disso, eles mostraram certa generalização: as otimizações para qualidade estética ou alinhamento entre prompt e imagem, por exemplo, foram realizadas para 45 espécies de animais comuns, mas também foram transferíveis para outras espécies de animais ou representações de objetos inanimados.

Vídeo: BAIR

Novo método não requer dados de treinamento

Como é comum no aprendizado por reforço, o DDPO também apresenta o fenômeno de superotimização da recompensa: o modelo destrói todo o conteúdo significativo da imagem em todas as tarefas após um certo ponto, a fim de maximizar a recompensa. Esse problema precisa ser investigado em trabalhos futuros.

novo método de treinamento da stable diffusion — Novo Método Revoluciona O Algoritmo De Stable Diffusion E Dispensa Dados De Treinamento 4

Ainda assim, o método é promissor: “O que descobrimos é uma maneira de treinar modelos de difusão de forma eficaz, indo além do mero reconhecimento de padrões, e sem necessariamente exigir dados de treinamento. As possibilidades são limitadas apenas pela qualidade e criatividade da sua função de recompensa.”

Mais informações e exemplos estão disponíveis na página do projeto BAIR sobre o DDPO.

Fonte: Andre Lug