Kürzlich hat FireCrawl eine neue Funktion gestartet - die LLMs.txt Generator -Schnittstelle (Alpha -Version), mit der Benutzer den Inhalt einer Website in klaren Textdateien umwandeln können, die für das LLM -Training (Langual Language Model) geeignet sind. Benutzer müssen nur die URL einer Website bereitstellen, und Firecrawl kriecht die Website und ihre verknüpften Seiten und generiert Textdateien in zwei Formaten: llms.txt und llms-full.txt, die die nachfolgende Analyse und Schulung erleichtern.

Der Workflow dieses Generators ist relativ einfach. Benutzer müssen nur eine URL bereitstellen, und das System kriecht automatisch den Inhalt der Website und extrahiert saubere und aussagekräftige Textinformationen. Die generierten Dateien sind in zwei Typen unterteilt: llms.txt ist eine kurze Zusammenfassung des Website -Inhalts und enthält wichtige Informationen. llms-full.txt ist ein detaillierterer und vollständigerer Textinhalt, der für Benutzer geeignet ist, die eine detaillierte Analyse benötigen.
Während der Verwendung können Benutzer einige wichtige Parameter festlegen. Das erste ist "URL", die URL, in der Sie die Datei llms.txt generieren möchten. Benutzer können auch den Parameter "maxurls" auswählen, um die maximale Anzahl der Krabbeln mit einem Bereich zwischen 1 und 100 zu steuern. Der Standardwert beträgt 10. Darüber hinaus kann der Benutzer auch wählen, ob llms-full.txt so eingestellt ist, dass sie nicht standardmäßig generiert werden.
Es ist erwähnenswert, dass die Arbeit des LLMs.txt -Generators asynchron durchgeführt wird und Benutzer Anfragen einleiten und den Generierungsstatus in Echtzeit überwachen können. Das System bietet Statusaktualisierungen wie "laufend" oder "abgeschlossen", damit Benutzer jederzeit den Fortschritt im Auge behalten können.
Da es sich jedoch derzeit in der Alpha -Phase befindet, gibt es einige Beschränkungen für diese Funktion. Erstens werden nur öffentlich zugängliche Seiten unterstützt, Anmeldeschutz oder Paywall -Inhalte können nicht verarbeitet werden. Zweitens beträgt in der Alpha -Phase die maximale Anzahl der verarbeiteten Websites 5.000 URLs. Darüber hinaus kann als Alpha -Funktion das Ausgangsformat und der Verarbeitungsfluss basierend auf dem Benutzer -Feedback eingestellt werden.
In Bezug auf die Abrechnung basieren die Kosten für die Verwendung des LLMS.txt -Generators auf der Anzahl der verarbeiteten URLs, und die Grundkosten werden für jede verarbeitete URL 1 Punkt verbraucht. Benutzer können Gebühren steuern, indem sie den Maxurls -Parameter einstellen.
Eingang: https://docs.firecrawl.dev/features/alpha/llmstxt
Schlüsselpunkte:
Geben Sie eine Website -URL an, um schnell Textdateien für LLM zu generieren.
Generieren Sie zwei Textformate, um Benutzern mit unterschiedlichen Bedürfnissen zu ermöglichen, auszuwählen und zu verwenden.
Es wird nur eine öffentliche Seitenverarbeitung unterstützt, und es gibt eine Menge Grenze für die Alpha -Phase.