Baru -baru ini, Firecrawl telah meluncurkan fitur baru - antarmuka LLMS.TXT Generator (Versi Alpha), yang dirancang untuk membantu pengguna mengonversi konten situs web apa pun menjadi file teks yang jelas yang cocok untuk pelatihan Model Bahasa Besar (LLM). Pengguna hanya perlu menyediakan URL situs web, dan Firecrawl akan merangkak situs web dan halaman yang ditautkan dan menghasilkan file teks dalam dua format: llms.txt dan llms-full.txt, yang memfasilitasi analisis dan pelatihan selanjutnya.

Alur kerja generator ini relatif sederhana. Pengguna hanya perlu menyediakan URL, dan sistem akan secara otomatis merangkak konten situs web dan mengekstrak informasi teks yang bersih dan bermakna. File yang dihasilkan dibagi menjadi dua jenis: llms.txt adalah ringkasan singkat dari konten situs web dan berisi informasi utama; LLMS-FULL.TXT adalah konten teks yang lebih rinci dan lengkap, cocok untuk pengguna yang membutuhkan analisis mendalam.
Selama digunakan, pengguna dapat mengatur beberapa parameter kunci. Yang pertama adalah "URL", yang merupakan URL tempat Anda ingin menghasilkan file llms.txt. Pengguna juga dapat memilih parameter "Maxurls" untuk mengontrol jumlah maksimum halaman yang dirangkak, dengan kisaran antara 1 dan 100, dan nilai defaultnya adalah 10. Selain itu, pengguna juga dapat memilih apakah akan menghasilkan LLMS-FULL.TXT, yang diatur untuk tidak menghasilkan secara default.
Perlu dicatat bahwa pekerjaan generator LLMS.TXT dilakukan secara tidak sinkron, dan pengguna dapat memulai permintaan dan memantau status generasi secara real time. Sistem ini akan memberikan pembaruan status, seperti "sedang berlangsung" atau "selesai", sehingga pengguna dapat melacak kemajuan kapan saja.
Namun, seperti saat ini dalam tahap alpha, ada beberapa batasan yang diketahui untuk fitur ini. Pertama, hanya halaman yang dapat diakses publik yang didukung, perlindungan login atau konten paywall tidak dapat diproses. Kedua, pada fase alfa, jumlah maksimum situs web yang diproses adalah 5.000 URL. Selain itu, sebagai fitur alpha, format output dan aliran pemrosesan dapat disesuaikan berdasarkan umpan balik pengguna.
Dalam hal penagihan, biaya menggunakan generator llms.txt didasarkan pada jumlah URL yang diproses, dan biaya dasar adalah 1 poin yang dikonsumsi untuk setiap URL yang diproses. Pengguna dapat mengontrol biaya dengan mengatur parameter MAXURLS.
Pintu masuk: https://docs.firecrawl.dev/features/alpha/llmstxt
Poin -Poin Kunci:
Berikan URL situs web untuk dengan cepat menghasilkan file teks untuk LLM.
Hasilkan dua format teks untuk memfasilitasi pengguna dengan kebutuhan berbeda untuk memilih dan menggunakan.
Hanya pemrosesan halaman publik yang didukung, dan ada batasan kuantitas untuk fase alfa.