Os pesquisadores demonstram um novo método para criar e editar avatares 3D usando Difusão Estável e uma nova representação 3D híbrida de humanos digitais.
Técnicas emergentes em inteligência artificial estão permitindo a criação de avatares virtuais cada vez mais realistas de humanos. Dois projetos de pesquisa recentes do Instituto Max Planck para Sistemas Inteligentes e outros agora demonstram abordagens que desembaraçam diferentes componentes de um avatar, como corpo, roupas e cabelo, para permitir operações de edição e até mesmo recursos generativos de texto para avatar.
Desembaraçar corpo, roupas e cabelos ajuda na geração
Em um artigo intitulado “DELTA: Learning Disentangled Avatars with Hybrid 3D Representations”, os pesquisadores apresentam um método para criar avatares com camadas separadas para corpo e roupas/cabelo. Sua ideia-chave é usar diferentes representações 3D para diferentes componentes: o corpo é modelado com um modelo explícito baseado em malha, enquanto roupas e cabelos são representados com um Campo de Radiância Neural (NeRF) que pode capturar formas e aparência complexas.
Bild: Feng et al.
Para criar um novo avatar, o DELTA só precisa de um vídeo RGB monocular como entrada. Uma vez treinado, o avatar habilita aplicativos como ajuste de roupas virtuais ou edição de formas. Roupas e cabelos podem ser transferidos perfeitamente entre diferentes formas corporais.
Vídeo: Feng et al.
Método de texto para avatar TECA usa DELTA
Em “TECA: Text-Guided Generation and Editing of Compositional 3D Avatars”, os pesquisadores então enfrentam a tarefa de criar avatares apenas a partir de descrições de texto. Para isso, utilizam a Difusão Estável e as representações 3D híbridas desenvolvidas em DELTA.
O sistema primeiro gera uma imagem de rosto a partir da descrição do texto usando Difusão Estável, que serve como referência para a geometria 3D, e depois pinta iterativamente a malha com uma textura. Em seguida, adiciona sequencialmente cabelo, roupas e outros elementos usando NeRFs guiados por segmentações CLIP.
Bild: Zhang et al.
Os avatares composicionais gerados por este método exibem qualidade significativamente maior do que as técnicas anteriores de texto para avatar. Criticamente, o desemaranhamento também permite uma edição poderosa por meio da transferência de atributos entre avatares, dizem os pesquisadores.
Mais informações, exemplos e código estão disponíveis no GitHub da DETLA e da TECA.
Fonte: Andre Lug