OpenAI desenvolve solução de direitos autorais para modelos de IA avançados.

De acordo com Sam Altman, produtores de conteúdo que contribuem para as capacidades de um modelo de IA se beneficiarão dele no futuro. Como exatamente ainda não está claro.

Durante um summit de IA na Casa Branca, o CEO da OpenAI, Sam Altman, disse que sua empresa está trabalhando em modelos de IA que respeitem os direitos autorais. O objetivo, disse ele, é que os criadores de conteúdo sejam pagos quando seu conteúdo, ou no caso de imagens, seu estilo, forem usados. Os detalhes técnicos ainda não são conhecidos.

Quando a OpenAI introduziu os plug-ins ChatGPT, mostrou uma compreensão do impacto potencial de um grande modelo de linguagem com ferramentas no ecossistema de conteúdo. Quanto mais interação ocorrer no ecossistema de chatbot, menos atenção – e, portanto, menos dinheiro – os criadores de conteúdo receberão por seus produtos fora do chatbot.

“Apreciamos que este seja um novo método de interagir com a web e damos as boas-vindas a feedbacks sobre maneiras adicionais de direcionar o tráfego de volta às fontes e contribuir para a saúde geral do ecossistema”, escreve a OpenAI.

Opções possíveis para a geração de texto seriam uma solução de streaming semelhante à Spotify, baseada nos tokens usados se a geração puder ser atribuída de forma exclusiva às fontes, ou uma taxa fixa com base na quantidade de dados fornecidos ao OpenAI. Atualmente, os sites podem indicar tecnicamente se desejam ou não ser rastreados pelo ChatGPT, semelhante ao índice do Google.

Modelos de IA e direitos autorais – é complicado

O uso de imagens e texto para treinar grandes modelos de IA sem o consentimento explícito já é controverso do ponto de vista dos direitos autorais. Além disso, os modelos de IA geradores são capazes de produzir texto ou imagens muito semelhantes ao original. Processos judiciais internacionais estão pendentes. Um dos maiores é o da Getty Images vs. Stability AI (Stable Diffusion).

OpenAI e outras empresas de IA poderiam abordar isso, usando apenas dados para treinar grandes modelos de IA quando estiver claro que isso é permitido. A questão é se é economicamente viável coletar a quantidade necessária de dados com permissão.

Enquanto os modelos de linguagem pré-treinados são relativamente estáticos e atualmente só são atualizados a cada alguns meses ou até anos, o ChatGPT, por exemplo, pode usar um plug-in de navegador para ingerir informações da web em tempo real e combiná-las com o conhecimento dos dados de treinamento. Esta capacidade em tempo real de grandes modelos de linguagem com ferramentas (plug-ins) leva o debate sobre direitos autorais a um novo nível.

O chatbot do Bing da Microsoft funciona de forma semelhante. O CEO da Microsoft, Satya Nadella, prometeu aos editores que o tráfego de saída do chatbot será definido como um fator de sucesso para o produto e que os editores compartilharão de seu sucesso.

Ainda não está claro como e se isso funcionará. Mesmo que os chatbots possam nomear fontes, é provável que o número de visitas ao site na era de chatbot caia dramaticamente à medida que mais e mais tarefas da web são realizadas por meio de uma interface de chatbot.