Sophia @princesinhamt
Ciência & Saúde

Inteligência Artificial: geração de dados para treinamento de IAs

2024 word2
Grupo do Whatsapp Cuiabá

Os atuais algoritmos de inteligência artificial, sejam modelos de (como o ChatGPT e o Gemini), geradores de imagens (Dall-E, Stable Diffusion, Midjourney) ou vídeos (Sora, Runway), bebem da mesma : eles foram “treinados” com material copiado da internet. Existe uma relação direta, ainda que não exclusiva, entre a sofisticação de um de IA e a quantidade de dados que ele recebeu para analisar. E isso pode ser um obstáculo para a do setor: como criar IAs mais avançadas sem dar a elas mais dados? Nos últimos anos, as grandes empresas de tecnologia já copiaram, geralmente sem autorização, todo o conteúdo online que conseguiram alcançar.

O próximo passo pode estar em outro tipo de conteúdo: dados sintéticos, gerados por IAs para alimentar o desenvolvimento de outras IAs. Essa é a proposta do algoritmo Nemotron-4 340B, criado pela . Ele é capaz de analisar um conjunto de informações e gerar uma nova massa de dados, que então podem ser usados para treinar uma segunda IA. 

nvidia-ia
Fluxo de do algoritmo Nemotron, com geração de dados sintéticos para alinhamento de IA. (Nvidia/Reprodução)

Os dados sintéticos costumam estar associados a um risco: o “colapso do modelo”, uma degeneração progressiva que acomete modelos de linguagem alimentados com informações geradas por outras IAs. Nesse fenômeno, que foi demonstrado pela primeira vez em 2023, o algoritmo vai gerando respostas cada vez mais distorcidas, até chegar a um ponto em que se torna irrecuperável. 

A Nvidia não aborda esse risco no artigo de apresentação do Nemotron. Mas destaca outro modelo de uso, que talvez não esteja sujeito a ele: a utilização de dados sintéticos para o chamado alinhamento (ajuste de uma IA para garantir que ela gera as respostas esperadas, de acordo com os objetivos de seus criadores). O alinhamento é um ponto crucial para a adoção segura da IA no futuro.

Num teste realizado pela Nvidia, o Nemotron gerou dados sintéticos, que então foram usados para alinhar outro algoritmo de IA: o Llama 3 70B, criado pela Meta. Segundo a Nvidia, o resultado foi excelente: o Llama alcançou alto grau de alinhamento, igualando ou superando o Llama 3 70B Instruct (um terceiro algoritmo, alinhado com dados gerados por humanos).  

Fonte: abril

Sobre o autor

Avatar de Redação

Redação

Estamos empenhados em estabelecer uma comunidade ativa e solidária que possa impulsionar mudanças positivas na sociedade.