External Publication
Visit Post

93% dos sites de notícias no Brasil estão expostos à coleta de dados por IA

Núcleo Jornalismo March 12, 2026
Source

Nove a cada 10 sites de jornalismo no Brasil carecem de protocolos contra a coleta de dados por empresas de inteligência artificial, permitindo que seus conteúdos sejam utilizados para treinar grandes modelos de linguagem.

Segundo a pesquisa The Protocol Gap, lançada nesta quinta-feira (12.mar.2026), 93% dos 4.025 sites de veículos de jornalismo no país analisados não possuem diretivas específicas de bloqueio de agentes de IA por meio de um recurso conhecido como robots.txt , embora 75% dos veículos tenham esse tipo de arquivo em seus sites.

O levantamento foi realizado de forma colaborativa pelas iniciativas Journalism Relay Project*, Momentum e International Fund for Public Interest Media (IFPIM). Os dados de veículos são do Atlas da Notícia. [_Disclaimer: projeto criado por Sérgio Spagnuolo, diretor de projetos especiais do*Núcleo_]

Para se ter uma ideia, o robots.txt tem sido utilizado como prova em ações judiciais contra a raspagem e o rastreamento não autorizados no Canadá, nos Estados Unidos, no Reino Unido e, agora, no Brasil.

O jornal Folha de S.Paulo, por exemplo, recorreu ao arquivo para demonstrar que houve violação do conteúdo protegido por paywall no processo aberto no ano passado contra a OpenAI, dona do ChatGPT. Em 2024, o Núcleo mostrou que a Folha era um dos únicos sites de jornalismo que dispunha do robots.txt e com diretriz expressa para bloquear agentes de IA.

Apesar de não ser um recurso técnico que impeça a coleta de dados, o robots.txt pode servir como uma primeira diretriz pública sobre preferência do site quanto ao uso do seu conteúdo, segundo os pesquisadores, estabelecendo uma prova declarativa das preferências de um veículo jornalístico sobre como essas empresas devem lidar com seu conteúdo.

Por outro lado, segundo a pesquisa, os sites noticiosos que possuem tal arquivo ainda estão mirando nos bots mais conhecidos, deixando de aplicar uma abordagem mais ampla. Entre os bots mais bloqueados estão o da OpenAI (10,2%), Common Crawl (9,7%), Google (9,5%), Anthropic (9,1%) e ByteDance (8,8%).

Além disso, o robots.txt não consegue barrar os resumos de IA feito por buscadores, como o do Google, sem fazer com que os veículos desapareçam dos resultados.

O estudo indica que os publishers brasileiros parecem estar despreparados diante do avanço das tecnologias, sendo que a extração não autorizada do conteúdo pode "corroer ainda mais a posição do jornalismo como fonte primária de informação".

Os autores, contudo, compreendem que os veículos estão perdendo a oportunidade de buscar recursos e legitimidade, já que a remuneração do conteúdo pode "compensar, ao menos parcialmente, a perda de audiência e receita publicitária resultante da mudança digital no consumo de informação".

Texto Jeniffer Mendonça

Arte e gráficos Rodolfo Almeida Edição Alexandre Orrico

Discussion in the ATmosphere

Loading comments...