O DALL-E 2 da OpenAI mostra uma impressionante criatividade de IA – se você souber como controlá-lo. Um pequeno passeio pelo DALL-E 2 em 2023.
O DALL-E 2 da OpenAI foi pioneiro em modelos de IA generativa e foi a primeira oferta de texto para imagem no mercado. Muita coisa aconteceu desde então: surgiram alternativas como o Midjourney, que geralmente produzem resultados melhores com prompts menos complicados, e o modelo subjacente é aprimorado regularmente. Há também uma alternativa de código aberto com o Stable Diffusion e o Stable Diffusion XL.
Mas, com os prompts corretos e para aplicações especiais como inpainting, o DALL-E ainda pode ser útil. Um exemplo: o DALL-E converte meu prompt “uma estátua antiga de um filósofo grego usando um headset de realidade virtual, realista, fotografia, 2023” em uma imagem adequada – embora de baixa resolução – mas o Midjourney se recusa a adicionar um headset de realidade virtual na estátua de resolução muito maior.
A seguir, gostaria de fornecer uma breve visão das funções do DALL-E 2 e dos princípios básicos de engenharia de prompts.
O OpenAI DALL-E 2 pode criar, editar ou modificar imagens
A interface do usuário do DALL-E 2 é mantida simples: através de um campo de entrada, você pode inserir o seu comando de imagem de texto, o chamado “prompt”, e enviá-lo para o sistema de IA pressionando “Gerar”. Após uma curta espera, quatro imagens geradas são exibidas.
Abaixo do campo de entrada, você também pode fazer o upload de sua própria imagem – contanto que ela não mostre uma pessoa real. A partir das imagens enviadas e das imagens recém-criadas, o DALL-E 2 pode gerar variantes. Isso torna relativamente fácil criar imagens inspiradas em temas existentes que podem então ser editadas ainda mais. Dessa forma, o sistema de IA pode ser controlado de forma ainda mais precisa.
Além disso, a função de edição pode ser usada para marcar uma área na imagem, que pode então ser alterada pelo DALL-E 2. Para isso, basta descrever o resultado desejado novamente por meio de um prompt de texto.
Em seguida, o DALL-E 2 gera três variantes da imagem original contendo as alterações correspondentes. Aqui, adicionei um elegante bigode à estátua.
O OpenAI DALL-E 2 e a engenharia de prompts
Como já é evidente a partir do exemplo da estátua antiga do pioneiro grego da realidade virtual, o DALL-E 2 pode ser controlado através de entrada de texto. A OpenAI treinou o sistema de IA com mais de 650 milhões de imagens – portanto, o DALL-E 2 viu e pode reproduzir inúmeros temas, estilos, exposições e outras propriedades de imagem.
Usando a chamada engenharia de prompts – o design da descrição de texto apropriada – o DALL-E 2 pode, por exemplo, gerar imagens fotorrealistas com diferentes especificações de lente para simular pequenas distâncias focais ou desfoque de movimento.
Com as descrições corretas, é possível capturar emoções, definir estruturas ou proporções, reproduzir estilos como steampunk ou cyberpunk, determinar ângulos de câmera e exposição, ou usar o design de séries de TV ou filmes como modelo.
O DALL-E 2 pode imitar numerosos estilos de ilustração, bem como arte 3D ou pinturas históricas. Essa capacidade de imitar estilos também é demonstrada pelo DALL-E 2 para diversos estilos artísticos, artistas individuais ou obras específicas.
Se você deseja capturar o estilo de uma obra de arte ou artista específico, também pode usar a ajuda da IA: no chamado “desmonte” (unbundling), você pode pedir a modelos como ChatGPT ou GPT-4 para descrever as características e o estilo de uma pintura. A resposta da IA pode ser usada para a engenharia de prompts.
Além de estátuas antigas, o DALL-E 2 também pode criar outros objetos – desde bordados até estátuas, corpos, animais de pelúcia, arquitetura ou cadeiras de designer, tudo está disponível.
DALL-E 2: Seis dicas para engenharia de prompts
Aspectos do Prompt | Explicação |
---|---|
Precisão | Use descrições precisas para os objetos ou cenas desejados, por exemplo, “um husky branco brincando em uma floresta nevada”. |
Adjetivos e advérbios | Adicione adjetivos e advérbios para fornecer mais detalhes, por exemplo, “uma bicicleta de estrada azul cintilante em uma trilha vazia”. |
Criatividade | Seja criativo com seus prompts, por exemplo, “um cachorro feito de nuvens”. |
Comparação | Use comparações para tornar suas ideias mais claras, por exemplo, “uma casa cuja cor é tão amarela quanto bananas maduras”. |
Contexto | Considere o contexto em que as imagens serão usadas, por exemplo, fotos de borboletas coloridas para um livro infantil. |
Simplicidade | Mantenha seus prompts concisos e concentre-se em um ou dois elementos principais, por exemplo, o personagem principal e o cenário. |
DALL-E 2: Edição externa de imagens e outpainting
Com a função de edição já introduzida, detalhes na imagem podem ser alterados, como adicionar um bigode, substituir objetos ou todo o fundo.
Uma vez que as imagens geradas também podem ser baixadas, um programa de edição de imagens externo pode ser usado para obter ainda mais do DALL-E 2. Na versão mais simples, nossa estátua do filósofo grego pode ser reduzida de tamanho e usada como base para uma nova imagem.
Pinturas podem ser adicionadas usando o mesmo método. O DALL-E 2 pode dar um corpo à Mona Lisa, e nosso filósofo grego de realidade virtual ganha companhia.
Se você repetir esse processo várias vezes, pode ampliar cada vez mais – alguns artistas já criam impressionantes jornadas através de mundos DALL-E 2 ou murais gigantes.
Ao combinar o processamento de imagem externo, engenharia inteligente de prompts e a função de edição do DALL-E 2, muitas outras aplicações são possíveis.
Se você quiser se aprofundar, deve conferir o Livro de Prompts do DALL-E 2, escrito por Guy Parsons. Ele fornece uma visão abrangente de muitas das dicas de engenharia de prompts descobertas até agora, além de métodos adicionais para aproveitar ao máximo o DALL-E 2. Muitas dessas dicas também podem ser aplicadas ao Midjourney ou Stable Diffusion.
Quanto ao DALL-E 3, ainda não sabemos ao certo, mas a OpenAI já está pesquisando arquiteturas alternativas para modelos de IA generativos, como os modelos de consistência.
Fonte: Andre Lug