เมื่อเร็ว ๆ นี้ FireCrawl ได้เปิดตัวคุณสมบัติใหม่ - LLMS.TXT Generator Interface (รุ่นอัลฟ่า) ออกแบบมาเพื่อช่วยให้ผู้ใช้แปลงเนื้อหาของเว็บไซต์ใด ๆ เป็นไฟล์ข้อความที่ชัดเจนสำหรับการฝึกอบรมรูปแบบภาษาขนาดใหญ่ (LLM) ผู้ใช้จะต้องจัดเตรียม URL ของเว็บไซต์และ FireCrawl จะรวบรวมข้อมูลเว็บไซต์และหน้าเชื่อมโยงและสร้างไฟล์ข้อความในสองรูปแบบ: LLMS.TXT และ LLMS-Full.txt ซึ่งอำนวยความสะดวกในการวิเคราะห์และการฝึกอบรมที่ตามมา

เวิร์กโฟลว์ของเครื่องกำเนิดไฟฟ้านี้ค่อนข้างง่าย ผู้ใช้จะต้องให้ URL เท่านั้นและระบบจะรวบรวมข้อมูลเนื้อหาของเว็บไซต์โดยอัตโนมัติและแยกข้อมูลข้อความที่สะอาดและมีความหมาย ไฟล์ที่สร้างขึ้นจะแบ่งออกเป็นสองประเภท: llms.txt เป็นสรุปสรุปเนื้อหาของเว็บไซต์และมีข้อมูลสำคัญ; LLMS-full.txt เป็นเนื้อหาข้อความที่มีรายละเอียดและสมบูรณ์มากขึ้นเหมาะสำหรับผู้ใช้ที่ต้องการการวิเคราะห์เชิงลึก
ในระหว่างการใช้งานผู้ใช้สามารถตั้งค่าพารามิเตอร์คีย์ได้ อย่างแรกคือ "URL" ซึ่งเป็น URL ที่คุณต้องการสร้างไฟล์ llms.txt ผู้ใช้ยังสามารถเลือกพารามิเตอร์ "maxurls" เพื่อควบคุมจำนวนสูงสุดของหน้าคลานโดยมีช่วงระหว่าง 1 ถึง 100 และค่าเริ่มต้นคือ 10 นอกจากนี้ผู้ใช้ยังสามารถเลือกได้ว่าจะสร้าง LLMS-Full.txt ซึ่งไม่ได้สร้างขึ้นตามค่าเริ่มต้น
เป็นที่น่าสังเกตว่าการทำงานของเครื่องกำเนิด LLMS.TXT นั้นดำเนินการแบบอะซิงโครนัสและผู้ใช้สามารถเริ่มต้นการร้องขอและตรวจสอบสถานะการสร้างแบบเรียลไทม์ ระบบจะให้การอัปเดตสถานะเช่น "กำลังดำเนินการ" หรือ "เสร็จสมบูรณ์" เพื่อให้ผู้ใช้สามารถติดตามความคืบหน้าได้ตลอดเวลา
อย่างไรก็ตามเนื่องจากอยู่ในช่วงอัลฟ่ามีข้อ จำกัด บางประการที่ทราบกันดีสำหรับคุณลักษณะนี้ ขั้นแรกให้การสนับสนุนหน้าเว็บที่สามารถเข้าถึงได้โดยสาธารณะการป้องกันการเข้าสู่ระบบหรือเนื้อหา paywall ไม่สามารถประมวลผลได้ ประการที่สองในเฟสอัลฟ่าจำนวนสูงสุดของเว็บไซต์ที่ประมวลผลคือ 5,000 URL นอกจากนี้ในฐานะคุณสมบัติอัลฟ่ารูปแบบเอาต์พุตและโฟลว์การประมวลผลอาจถูกปรับตามความคิดเห็นของผู้ใช้
ในแง่ของการเรียกเก็บเงินค่าใช้จ่ายในการใช้ LLMS.TXT Generator ขึ้นอยู่กับจำนวน URL ที่ประมวลผลและค่าใช้จ่ายพื้นฐานคือ 1 จุดที่ใช้สำหรับ URL แต่ละอันที่ประมวลผล ผู้ใช้สามารถควบคุมค่าธรรมเนียมได้โดยการตั้งค่าพารามิเตอร์ Maxurls
ทางเข้า: https://docs.firecrawl.dev/features/alpha/llmstxt
ประเด็นสำคัญ:
ระบุ URL เว็บไซต์เพื่อสร้างไฟล์ข้อความสำหรับ LLM อย่างรวดเร็ว
สร้างรูปแบบข้อความสองรูปแบบเพื่ออำนวยความสะดวกแก่ผู้ใช้ที่มีความต้องการที่แตกต่างกันในการเลือกและใช้งาน
รองรับการประมวลผลหน้าสาธารณะเท่านั้นและมีขีด จำกัด ปริมาณสำหรับเฟสอัลฟ่า