Reddit está tomando medidas para impedir que empresas de IA não remuneradas extraiam seu conteúdo

Autor：Eve Cole Data da Última Atualização：2025-02-28 01:50:01

O Reddit ajustou recentemente seu arquivo robots.txt em um esforço para limitar ou cobrar das empresas de IA pela extração de conteúdo em sua plataforma. A medida gerou discussões entre empresas de IA e proprietários de conteúdo sobre direitos de uso de dados e modelos de negócios. A ação do Reddit não é um caso isolado e reflete as preocupações de cada vez mais sites sobre a coleta de dados em grande escala pela IA e a necessidade de proteger os direitos de propriedade intelectual. Este artigo explicará em detalhes a estratégia do Reddit e as razões por trás dela.

O Reddit está tomando medidas para impedir que empresas de IA rastreiem seu conteúdo ou, pelo menos, exija que elas paguem.

No início desta semana, o Reddit anunciou que estava mudando seu protocolo de exclusão de robôs, também conhecido como arquivo robots.txt. Esta edição aparentemente chata faz parte de uma negociação/batalha maior entre proprietários de conteúdo que as empresas de IA estão ansiosas para usar para treinar seus modelos de linguagem.

AI助教机器人

"Robots.txt" é uma forma de os sites comunicarem a terceiros como o site foi rastreado, sendo o exemplo clássico os sites que permitem ao Google rastreá-los para inclusão nos resultados de pesquisa.

No caso da inteligência artificial, a troca de valores é menos óbvia. Quando o modelo de negócios de administração de um site envolve atrair cliques e olhos, ter uma empresa de IA sugando seu conteúdo e não enviando tráfego (e, em alguns casos, eles simplesmente plagiarão seu trabalho) não é atraente.

Portanto, ao alterar seu arquivo robots.txt e continuar a limitar e bloquear bots e rastreadores desconhecidos com classificações, o Reddit parece estar trabalhando para evitar que empresas como a Perplexity AI sejam criticadas por suas práticas.

Destaques:

- O Reddit está tomando medidas para impedir que as empresas de IA rastreiem seu conteúdo ou, pelo menos, exija que elas paguem.

- Robots.txt é uma forma de os sites comunicarem a terceiros como o site foi rastreado, sendo o exemplo clássico os sites que permitem ao Google rastreá-los para inclusão nos resultados de pesquisa.

- O Reddit alterou seu arquivo robots.txt e continuou com restrições de classificação e bloqueio de bots e rastreadores desconhecidos para evitar que empresas como a Perplexity AI fossem criticadas pela prática.

Esta medida do Reddit indica que haverá mais jogos sobre direitos de utilização de dados entre plataformas de conteúdo e empresas de IA no futuro, e também coloca novos desafios sobre como equilibrar o desenvolvimento da tecnologia de IA e a protecção dos direitos de propriedade intelectual. Isto levará as empresas de IA a explorar formas mais sustentáveis de obter dados e a promover plataformas de conteúdo e empresas de IA para estabelecer um modelo de cooperação mais justo e razoável.