Reddit은 최근 플랫폼에서 콘텐츠를 스크랩하는 AI 회사를 제한하거나 비용을 청구하기 위한 노력의 일환으로 robots.txt 파일을 조정했습니다. 이러한 움직임은 AI 기업과 콘텐츠 소유자 간에 데이터 사용 권한과 비즈니스 모델에 대한 논의를 촉발시켰습니다. Reddit의 움직임은 고립된 사례가 아니며 AI에 의한 대규모 데이터 수집과 지적 재산권 보호 필요성에 대한 점점 더 많은 웹 사이트의 우려를 반영합니다. 이 기사에서는 Reddit의 전략과 그 이유를 자세히 설명합니다.
Reddit은 AI 회사가 콘텐츠를 크롤링하는 것을 막거나 최소한 비용을 지불하도록 요구하는 조치를 취하고 있습니다.
이번 주 초 Reddit은 robots.txt 파일이라고도 알려진 로봇 제외 프로토콜을 변경한다고 발표했습니다. 지루해 보이는 이 편집은 AI 회사가 언어 모델을 훈련하는 데 사용하기를 열망하는 콘텐츠 소유자 간의 대규모 협상/전투의 일부입니다.

"Robots.txt"는 웹사이트가 사이트가 어떻게 크롤링되었는지 제3자와 소통하는 방법입니다. 전형적인 예는 Google이 검색결과에 포함하기 위해 사이트를 크롤링할 수 있도록 허용하는 사이트입니다.
인공지능의 경우 가치교환이 덜 명확하다. 웹 사이트 운영의 비즈니스 모델이 클릭 수와 눈길을 끄는 것과 관련된 경우, AI 회사가 귀하의 콘텐츠를 빨아들이고 트래픽을 보내지 않는 것(어떤 경우에는 귀하의 작업을 노골적으로 표절할 수도 있음)은 매력적이지 않습니다.
따라서 Reddit은 robots.txt 파일을 변경하고 등급을 통해 알 수 없는 봇과 크롤러를 계속 제한하고 차단함으로써 Perplexity AI와 같은 회사가 관행에 대해 비판을 받는 것을 방지하기 위해 노력하고 있는 것으로 보입니다.
가장 밝은 부분:
- Reddit은 AI 회사가 콘텐츠를 크롤링하는 것을 막거나 적어도 비용을 지불하도록 요구하는 조치를 취하고 있습니다.
- Robots.txt는 웹사이트가 사이트가 어떻게 크롤링되었는지 제3자에게 알리는 방법입니다. 전형적인 예는 Google이 검색결과에 포함하기 위해 사이트를 크롤링할 수 있도록 허용하는 사이트입니다.
- Reddit은 Perplexity AI와 같은 회사가 관행에 대해 비판을 받는 것을 방지하기 위해 robots.txt 파일을 변경하고 지속적인 등급 제한과 알 수 없는 봇 및 크롤러 차단을 수행했습니다.
Reddit의 이러한 움직임은 앞으로 콘텐츠 플랫폼과 AI 기업 사이에 데이터 사용권을 둘러싸고 더 많은 게임이 있을 것임을 의미하며, AI 기술 개발과 지적재산권 보호의 균형을 어떻게 맞출 것인지에 대한 새로운 과제도 제기합니다. 이를 통해 AI 기업은 보다 지속 가능한 데이터 획득 방법을 모색하고, 콘텐츠 플랫폼과 AI 기업이 보다 공정하고 합리적인 협력 모델을 구축하도록 촉진할 것입니다.