في الآونة الأخيرة ، أطلقت FireCrawl ميزة جديدة - واجهة LLMS.TXT Generator (إصدار ألفا) ، مصممة لمساعدة المستخدمين على تحويل محتوى أي موقع ويب إلى ملفات نصية واضحة مناسبة لتدريب نموذج اللغة الكبير (LLM). يحتاج المستخدمون فقط إلى توفير عنوان URL لموقع الويب ، وسيقوم FireCrawl بزحف موقع الويب وصفحاته المرتبطة وإنشاء ملفات نصية بتنسيقين: LLMS.TXT و LLMS-FULL.TXT ، مما يسهل التحليل والتدريب اللاحقين.

سير عمل هذا المولد بسيط نسبيًا. يحتاج المستخدمون فقط إلى توفير عنوان URL ، وسيقوم النظام تلقائيًا بالزحف إلى محتوى الموقع واستخراج معلومات نصية نظيفة وذات مغزى. تنقسم الملفات التي تم إنشاؤها إلى نوعين: llms.txt هو ملخص موجز لمحتوى الموقع ويحتوي على معلومات رئيسية ؛ LLMS-FULL.TXT هو محتوى نصي أكثر تفصيلًا وكاملة ، مناسب للمستخدمين الذين يحتاجون إلى تحليل متعمق.
أثناء الاستخدام ، يمكن للمستخدمين تعيين بعض المعلمات الرئيسية. الأول هو "url" ، وهو عنوان URL حيث تريد إنشاء ملف llms.txt. يمكن للمستخدمين أيضًا تحديد المعلمة "Maxurls" للتحكم في الحد الأقصى لعدد الصفحات المزروعة ، مع نطاق يتراوح بين 1 و 100 ، والقيمة الافتراضية هي 10. بالإضافة إلى ذلك ، يمكن للمستخدم أيضًا اختيار ما إذا كان سيتم إنشاء LLMS-Full.txt ، والذي يتم تعيينه على عدم توليده بشكل افتراضي.
تجدر الإشارة إلى أن عمل مولد LLMS.TXT يتم تنفيذه بشكل غير متزامن ، ويمكن للمستخدمين بدء الطلبات ومراقبة حالة التوليد في الوقت الفعلي. سيوفر النظام تحديثات الحالة ، مثل "قيد التقدم" أو "مكتمل" ، بحيث يمكن للمستخدمين متابعة التقدم في أي وقت.
ومع ذلك ، كما هو الحال حاليًا في مرحلة ألفا ، هناك بعض القيود المعروفة على هذه الميزة. أولاً ، يتم دعم الصفحات التي يمكن الوصول إليها علنًا فقط ، ولا يمكن معالجة محتوى تسجيل الدخول أو محتوى PayWall. ثانياً ، في مرحلة ألفا ، يبلغ الحد الأقصى لعدد المواقع التي تمت معالجتها 5000 عناوين URL. بالإضافة إلى ذلك ، كميزة ألفا ، قد يتم تعديل تنسيق الإخراج وتدفق المعالجة بناءً على ملاحظات المستخدم.
من حيث الفواتير ، تعتمد تكلفة استخدام مولد LLMS.TXT على عدد عناوين URL التي تمت معالجتها ، والتكلفة الأساسية يتم استهلاكها لكل عنوان URL الذي تمت معالجته. يمكن للمستخدمين التحكم في الرسوم عن طريق تعيين معلمة Maxurls.
المدخل: https://docs.firecrawl.dev/features/alpha/llmstxt
النقاط الرئيسية:
قم بتوفير عنوان URL لموقع الويب لإنشاء ملفات نصية بسرعة لـ LLM.
قم بإنشاء تنسيقين نصين لتسهيل المستخدمين ذوي الاحتياجات المختلفة للاختيار والاستخدام.
يتم دعم معالجة الصفحات العامة فقط ، وهناك حد كمية لمرحلة ألفا.