Sophia @princesinhamt
Tecnologia

Cientistas usam YouTube e podcasts para fazer IA falar como uma pessoa

2024 word1
Grupo do Whatsapp Cuiabá

Existem vários programas que convertem texto para fala, chamados em inglês de “text-to-speech” (TTS). O Google Tradutor é um deles: ao traduzir uma palavra, ele te dá a opção de escutar a sua pronúncia.

Esse tipo de conversão é possível porque alguém gravou todos os fonemas (os sons que as letras formam). Para continuar no do Google: a empresa foi lá e pagou alguém para horas balbuciando em um estúdio. Na hora de reproduzir a fala, basta que o programa reconheça os fonemas necessários e monte a palavra (ou a frase).

Qualquer pessoa que usou um GPS sabe que programas assim não costumam soar nada naturais – a fala é robótica e não tem a entonação de uma pessoa numa conversa normal. E tudo bem: o do GPS e passar instruções claras ao motorista. Não tem problema que o ritmo da voz seja do jeito que é.

Para criar um text-to-speech baseado em, é preciso calibrar o software, expondo-o a falas humanas. Dessa forma, ele reconhece os padrões – e passa a reproduzi-los. O problema é que a maioria desses programas essas falas “encenadas”, com alguém lendo fonemas. O resultado, artificial, não lembra discursos naturais, com cadências, pausas e maneirismos (“hum”, “ahn”, “né”…).

Mas há pessoas dedicadas a criar uma ência artificial (IA) que realmente simule os trejeitos da fala humana. Um exemplo é o grupo de pesquisadores da Carnegie Mellon University, nos EUA, que usou quase 900 horas de conversas extraídas do YouTube e de para treinar uma de conversão de texto em fala.

Como funciona o programa

Primeiro, o usuário precisa enviar um exemplo de fala, para que o programa consiga imitar a voz. Um exemplo:

O que o modelo faz é dividir os novos de fala em várias partes. Depois, ele usa uma rede neural para produzir novas vocalizações, prevendo qual parte (um fonema ou um momento de silêncio, por exemplo)parte da fala tem maior probabilidade de vir em seguida – de forma semelhante a como funcionam as IAs geradoras de texto, como o .

O usuário, então, digita um comando de texto para que o áudio fake seja gerado. Ele pode, inclusive, escrever os maneirismos que deseja que apareçam. O resultado é esse:

Resultados

Produzir a vocalização assim, quebrando-a em diversas partes, torna o modelo mais rápido do que os outros, que geram sequências inteiras de uma só vez. Pessoas recrutadas por uma plataforma online avaliaram a naturalidade do discurso artificial em uma escala de 1 a 5 – e a pontuação média foi 3,89. Esse é o melhor resultado já conquistado por outras vozes de IA.

Mas é claro: embora o modelo possa produzir uma fala que soe bastante natural, os pesquisadores admitem que o programa ainda é apenas uma prova de conceito – e que ele pode ser aprimorado com mais horas de e .

Fonte: abril

Sobre o autor

Avatar de Redação

Redação

Estamos empenhados em estabelecer uma comunidade ativa e solidária que possa impulsionar mudanças positivas na sociedade.