최근 FireCrawl은 사용자가 웹 사이트의 컨텐츠를 LLM (Language Model) 교육에 적합한 명확한 텍스트 파일로 변환 할 수 있도록 설계된 새로운 기능인 LLMS.TXT Generator Interface (Alpha Version)를 시작했습니다. 사용자는 웹 사이트의 URL 만 제공하면되며 FireCrawl은 웹 사이트와 링크 된 페이지를 크롤링하고 LLMS.TXT 및 LLMS-Full.txt의 두 가지 형식으로 텍스트 파일을 생성하여 후속 분석 및 교육을 용이하게합니다.

이 생성기의 워크 플로우는 비교적 간단합니다. 사용자는 URL 만 제공하면 시스템이 웹 사이트의 내용을 자동으로 크롤링하고 깨끗하고 의미있는 텍스트 정보를 추출합니다. 생성 된 파일은 두 가지 유형으로 나뉩니다. llms.txt는 웹 사이트 콘텐츠의 간결한 요약이며 주요 정보를 포함합니다. LLMS-full.txt는 더 자세하고 완전한 텍스트 콘텐츠로 심층 분석이 필요한 사용자에게 적합합니다.
사용하는 동안 사용자는 몇 가지 주요 매개 변수를 설정할 수 있습니다. 첫 번째는 "URL"이며 LLMS.txt 파일을 생성하려는 URL입니다. 사용자는 또한 "maxurls"매개 변수를 선택하여 크롤링 된 최대 페이지 수를 1 ~ 100 사이이며 기본값은 10입니다. 또한 사용자는 LLMS-full.txt를 생성할지 여부를 선택할 수도 있습니다.
LLMS.TXT 생성기의 작업은 비동기 적으로 수행되며 사용자는 요청을 시작하고 생성 상태를 실시간으로 모니터링 할 수 있습니다. 이 시스템은 "진행 중"또는 "완료된"과 같은 상태 업데이트를 제공하여 사용자가 언제든지 진행을 추적 할 수 있도록합니다.
그러나 현재 알파 단계에 있기 때문에이 기능에는 알려진 한계가 있습니다. 첫째, 공개적으로 액세스 가능한 페이지 만 지원되며 로그인 보호 또는 Paywall 콘텐츠는 처리 할 수 없습니다. 둘째, 알파 단계에서 처리 된 최대 웹 사이트 수는 5,000 개의 URL입니다. 또한, 알파 기능으로서, 출력 형식 및 처리 흐름은 사용자 피드백에 따라 조정될 수 있습니다.
청구 측면에서 LLMS.TXT 생성기 사용 비용은 처리 된 URL 수를 기반으로하며 기본 비용은 처리 된 각 URL에 대해 1 점 소비됩니다. 사용자는 MaxUrls 매개 변수를 설정하여 수수료를 제어 할 수 있습니다.
입구 : https://docs.firecrawl.dev/features/alpha/llmstxt
핵심 사항 :
LLM 용 텍스트 파일을 신속하게 생성하기위한 웹 사이트 URL을 제공하십시오.
선택하고 사용해야 할 필요가 다른 사용자를 용이하게하기 위해 두 가지 텍스트 형식을 생성하십시오.
공개 페이지 처리 만 지원되며 알파 단계에는 수량 제한이 있습니다.