O mercado das inteligências artificiais ganhou mais um nome. A OpenAI, criadora do ChatGPT, anunciou na última quinta (15) seu modelo de geração de vídeo: o Sora, que promete gerar cenas a partir de simples comandos de texto.
É o mesmo princípio das IAs geradoras de imagens, que são treinadas para identificar e reproduzir padrões. Esses softwares têm à sua disposição bancos de dados gigantescos com fotos associadas a palavras. Daí, quando alguém digitar algo como “balão”, o robô analisa milhares de imagens de balões para, então, construir a sua própria.
No caso do Sora, há um passo além. Os usuários poderão criar vídeos realistas de até um minuto de duração. O robô, contudo, ainda não está disponível para o público – seu acesso é restrito à parceiros da OpenAI, que estão avaliando o modelo para procurar falhas. A empresa também compartilhou o Sora com alguns artistas, designers e cineastas.
O Sora promete ser capaz de criar cenas complexas, com vários elementos e pessoas, cada uma com tipos específicos de movimento e interação, de acordo com as instruções de texto. O modelo também entende como os objetos se comportam e interagem no mundo físico. Sempre bom seguir as leis da física, afinal.
A IA consegue ainda gerar um vídeo a partir de uma única imagem ou de um vídeo existente, aumentado-o ou preenchendo lacunas.
Sora vs. concorrência
A partir dos exemplos divulgados pela OpenAI, dá para perceber como o Sora é uma evolução de outras IAs de vídeo, como como Runway e Pika. Contudo, ela não simula com perfeição algumas cenas um pouco mais complexas nem entende plenamente relações de causa e efeito.
Por exemplo: no vídeo abaixo, a cadeira é puxada de um jeito nada convincente. Parece que ela foi criada do nada – para depois flutuar atrás das pessoas:
Outros vídeos também apresentam falhas: um piso que se move, um cachorro que se divide em dois ou uma bola de basquete que atravessa o aro. Mas é inegável que os resultados impressionam.
Uso consciente
O anúncio do Sora levantou questões sobre o caráter ético da ferramenta. Capaz de gerar vídeos muito realistas, o robô pode colocar em xeque a credibilidade desse tipo de evidência – seria fácil criar conteúdos falsos, que promovessem desinformação. Isso poderia acarretar em séries consequências, como fraudar provas judiciais e gerar vídeos incriminadores.
Não é algo de outro mundo: as IAs de imagem já estão causando problemas. No final de janeiro, fotos pornográficas da cantora Taylor Swift rodaram a internet – todas falsas, geradas artificialmente.
A OpenAI afirma que compartilhou o modelo com “especialistas em áreas como desinformação, conteúdo de ódio e preconceito”, e que está desenvolvendo ferramentas para detectar conteúdos gerados pelo Sora.
Outra medida em construção é uma análise do comando de texto: caso ele viole as políticas de uso, como violência explícita, conteúdo sexual, imagens de ódio ou conteúdos protegidos, a IA pode se recusar a gerar o vídeo. A OpenAI diz ainda trabalhar em classificadores de imagens, que revisariam cada quadro do vídeo para garantir que ele cumpra os requisitos de segurança antes de aparecer ao usuário.
A regulamentação internacional das inteligências artificiais ainda está em estágios iniciais. A União Europeia assinou um acordo provisório em dezembro de 2023 sobre o uso dessa tecnologia. No Brasil, espera-se que a lei que regule esse mercado seja votada no primeiro semestre deste ano.
Fonte: abril