Estudo mostra que Inteligências Artificiais corrompem documentos em que atuam

A inteligência artificial está pronta, ou quase pronta, para substituir grande parte do trabalho intelectual. É o que dizem as empresas de IA. Mas, na prática, talvez não seja bem assim – e haja uma distância muito maior entre o marketing e a realidade atual. Três pesquisadores da Microsoft colocaram 19 IAs, incluindo os algoritmos Gemini 3.1 Pro (do Google), Claude 4.6 Opus (da Anthropic) e GPT 5.4 (da OpenAI, que a própria Microsoft utiliza em seus produtos) para trabalhar em documentos de 52 profissões variadas, desde desenvolvimento de software até biologia – e os resultados foram preocupantes.

Os algoritmos corromperam pelo menos 25% do conteúdo dos documentos: conforme trabalhavam neles, executando as tarefas que uma pessoa faria, as IAs foram modificando ou eliminando os textos e as imagens ali contidas, sem dar qualquer aviso de que estavam fazendo isso. E esse índice de comprometimento, 25%, foi com os algoritmos mais modernos; na média, considerando todas as IAs testadas, 50% do conteúdo dos arquivos foi corrompido.

Gráfico comparando a degradação de três tipos de dados (diagramas, padrões têxteis e objetos 3D) após interações com modelos de linguagem, mostrando a porcentagem de integridade em cada etapa. À direita, uma lista detalha 20 tarefas de simulação para um objeto 3D de palmeira, ilustrando a perda de detalhes ao longo das interações — Exemplos de corrupção de conteúdo em documentos nos quais as IAs Gemini, Claude e GPT trabalharam. (Microsoft Research/Reprodução)

Os pesquisadores forneciam um documento inicial real, elaborado por pessoas que trabalhavam numa das 52 profissões, e então pediam à IA que executasse algumas tarefas baseadas naquele conteúdo. Nada de outro mundo: na tarefa de contabilidade, por exemplo, o robô deveria separar por categoria (hotel, alimentação etc) as despesas listadas no documento.

Além desse documento inicial, os cientistas forneciam à IA também alguns outros, que tinham relação com o trabalho mas não eram necessários para executá-lo. Na tarefa de contabilidade, por exemplo, a IA também recebia um arquivo com a política de reembolsos da empresa.

O objetivo disso era reproduzir um ambiente típico de escritório – em que as pessoas, por distração, falta de foco ou para valorizar o próprio trabalho, frequentemente enviam aos colegas emails com mais arquivos do que o necessário. Isso é quase inevitável, e aconteceria mesmo se a IA fosse sozinha pegar o documento inicial no banco de dados da empresa (nele, também haveria diversos outros arquivos correlatos).

Gráfico de calor comparando modelos de IA (GPT 5 Nano, Grok 4, Kimi K2.5, etc) em diversas categorias de tarefas: Código e Configuração, Ciência e Engenharia, Criação e Mídia, Registros Estruturados e Cotidiano. As cores variam de vermelho escuro (pior desempenho) a amarelo claro (melhor desempenho), com alguns modelos marcados com um visto azul indicando compatibilidade ou bom desempenho em certas tarefas — Nível de corrupção do conteúdo em documentos de várias profissões. A cor encarnada, que preenche a maior parte do gráfico, significa que a IA corrompeu pelo menos 45% dos dados. (Microsoft Research/Reprodução)

Conforme trabalhavam no documento principal, as IAs foram corrompendo seu conteúdo, até chegar a resultados imprestáveis. Num segundo teste, os pesquisadores permitiram que os bots trabalhassem no modo “agêntico”, ou seja, podendo usar outros softwares para completar as tarefas e preencher o documento principal. Ao contrário do esperado, o desfecho foi ainda pior, com mais dados corrompidos.

Os pesquisadores também fizeram testes sem os arquivos correlatos, fornecendo às IAs apenas o documento no qual elas deveriam trabalhar. Melhorou, mas não muito: o índice de informações corrompidas diminuiu apenas 2% a 8%, dependendo da IA.

A única tarefa na qual praticamente todas as IAs se saíram bem foi desenvolver código de software. “Os modelos de linguagem (LLMs) atuais estão prontos para assumir fluxos de trabalho em algumas áreas, como escrever código na linguagem Python, mas não em outras áreas. Em geral, os usuários ainda precisam monitorar de perto os LLMs enquanto operam e completam tarefas”, conclui o trabalho.

Fonte: abril

Estudo mostra que Inteligências Artificiais corrompem documentos em que atuam

Sobre o autor

aifabio

Sobre o autor

aifabio

você pode gostar