
A disputa judicial envolvendo o uso de conteúdo jornalístico para treinar sistemas de inteligência artificial ganhou um novo capítulo com a ordem para que a OpenAI entregue 20 milhões de logs de conversas anônimas do ChatGPT.
O que envolve a entrega dos logs de conversas do ChatGPT
A ordem judicial obriga a OpenAI a entregar, em até sete dias, cerca de 20 milhões de logs de conversas do ChatGPT, desde que passem por um processo de remoção de qualquer dado capaz de identificar usuários. Essa “exaustiva desidentificação” busca reduzir riscos à privacidade, mantendo somente informações necessárias para análise das alegações de violação de direitos autorais.

Na prática, nomes, contatos, identificadores técnicos e qualquer outro dado pessoal devem ser apagados ou mascarados antes do envio ao tribunal e às partes envolvidas. Os logs, já anonimizados, serão usados para verificar se o ChatGPT reproduz trechos de reportagens ou outros materiais jornalísticos de forma incompatível com a legislação de direitos autorais dos Estados Unidos.
Por que os logs de conversas são centrais no processo
O caso movido pelo The New York Times e outros veículos de imprensa alega que a OpenAI teria usado conteúdos jornalísticos para treinar modelos de IA sem licença. Os logs de conversas do ChatGPT funcionam como evidência potencial, pois revelam os resultados de interações reais e se o sistema é capaz de reproduzir passagens extensas de textos protegidos.
Esses registros também ajudam a separar o que é simples padrão estatístico de linguagem do que pode ser caracterizado como reprodução literal ou quase literal de conteúdos protegidos. Em um cenário de grandes bases de dados, essa distinção é decisiva para definir fronteiras entre uso legítimo, fair use e violação de direitos autorais em diferentes jurisdições.
Como fica a questão da privacidade dos usuários no uso dos logs
A decisão da juíza destaca o caráter sensível das conversas registradas pelo ChatGPT, muitas vezes contendo informações pessoais, profissionais ou confidenciais. Por isso, o tribunal determinou múltiplas camadas de proteção, com anonimização rigorosa e controle estrito de acesso aos dados disponibilizados às partes.

Essa abordagem busca equilibrar a necessidade de evidências para avaliar as acusações com a proteção de dados de usuários que não participam do processo. O debate se conecta a discussões mais amplas sobre governança de dados em IA, transparência na formação de modelos, sigilo profissional e responsabilidade das empresas em litígios complexos.
Como a OpenAI e os grupos de mídia reagiram à ordem judicial
A OpenAI contestou a determinação e apresentou recurso ao juiz principal do caso, Sidney Stein. O chefe de segurança da empresa, Dane Stuckey, argumenta que pedidos amplos de acesso a logs de conversas do ChatGPT podem contrariar práticas consolidadas de proteção de dados, além de revelar aspectos estratégicos de arquitetura, segurança e operação dos sistemas.
Já grupos de mídia como o The New York Times e veículos administrados pelo MediaNews Group defendem que a transparência é necessária para demonstrar a dependência dos modelos em relação a reportagens profissionais. Segundo o editor-executivo Frank Pine, empresas de tecnologia devem mostrar com dados concretos como utilizam obras protegidas, em linha com ações semelhantes contra Meta e Microsoft.