最近、Firecrawlは、ユーザーがWebサイトのコンテンツを大規模な言語モデル(LLM)トレーニングに適したクリアテキストファイルに変換できるように設計された新しい機能 - LLMS.TXTジェネレーターインターフェイス(Alphaバージョン)を立ち上げました。ユーザーはWebサイトのURLを提供するだけで、FirecrawlはWebサイトとそのリンクページをクロールし、2つの形式でテキストファイルを生成します:llms.txtとllms-full.txtは、その後の分析とトレーニングを促進します。

このジェネレーターのワークフローは比較的簡単です。ユーザーはURLを提供するだけで、システムはWebサイトのコンテンツを自動的にクロールし、クリーンで意味のあるテキスト情報を抽出します。生成されたファイルは2つのタイプに分割されます。LLMS.TXTは、Webサイトコンテンツの簡潔な要約であり、重要な情報が含まれています。 LLMS-full.txtは、より詳細で完全なテキストコンテンツであり、詳細な分析が必要なユーザーに適しています。
使用中、ユーザーはいくつかの重要なパラメーターを設定できます。 1つ目は「URL」です。これは、LLMS.TXTファイルを生成するURLです。ユーザーは、「maxurls」パラメーターを選択して、1〜100の範囲でクロールされたページの最大数を制御することもできます。デフォルト値は10です。さらに、ユーザーは、デフォルトで生成されないLLMS-full.txtを生成するかどうかを選択することもできます。
LLMS.TXTジェネレーターの作業が非同期に実行され、ユーザーはリクエストを開始して生成ステータスをリアルタイムで監視できることは注目に値します。システムは、「進行中」や「完了」などのステータスの更新を提供するため、ユーザーはいつでも進行状況を追跡できます。
ただし、現在アルファ段階にあるため、この機能にはいくつかの既知の制限があります。まず、公的にアクセス可能なページのみがサポートされており、ログイン保護またはペイウォールコンテンツを処理できません。第二に、アルファフェーズでは、処理されたWebサイトの最大数は5,000 URLです。さらに、アルファ機能として、ユーザーフィードバックに基づいて出力形式と処理フローを調整できます。
請求に関しては、LLMS.TXTジェネレーターを使用するコストは、処理されたURLの数に基づいており、基本コストは処理された各URLに対して1ポイント消費されます。ユーザーは、Maxurlsパラメーターを設定することで料金を制御できます。
入り口:https://docs.firecrawl.dev/features/alpha/llmstxt
キーポイント:
LLMのテキストファイルをすばやく生成するためのWebサイトURLを提供します。
2つのテキスト形式を生成して、選択して使用するさまざまなニーズを持つユーザーを容易にします。
パブリックページ処理のみがサポートされており、アルファフェーズには数量制限があります。