Récemment, Firecrawl a lancé une nouvelle fonctionnalité - l'interface du générateur LLMS.TXT (version Alpha), conçue pour aider les utilisateurs à convertir le contenu de tout site Web en fichiers texte clairs adaptés à une formation de modèle de grande langue (LLM). Les utilisateurs n'ont qu'à fournir l'URL d'un site Web, et Firecrawl explorera le site Web et ses pages liées et générera des fichiers texte en deux formats: llms.txt et llms-full.txt, qui facilite l'analyse et la formation ultérieures.

Le flux de travail de ce générateur est relativement simple. Les utilisateurs n'ont qu'à fournir une URL, et le système explorera automatiquement le contenu du site Web et extrait des informations de texte propres et significatives. Les fichiers générés sont divisés en deux types: llms.txt est un résumé concis du contenu du site Web et contient des informations clés; LLMS-Full.txt est un contenu texte plus détaillé et complet, adapté aux utilisateurs qui ont besoin d'une analyse approfondie.
Pendant l'utilisation, les utilisateurs peuvent définir certains paramètres clés. Le premier est "URL", qui est l'URL où vous souhaitez générer le fichier llms.txt. Les utilisateurs peuvent également sélectionner le paramètre "maxurls" pour contrôler le nombre maximum de pages rampé, avec une plage entre 1 et 100, et la valeur par défaut est 10. De plus, l'utilisateur peut également choisir de générer de LLMS-Full.txt, qui est défini pour ne pas générer par défaut.
Il convient de noter que le travail du générateur LLMS.TXT est effectué de manière asynchrone et que les utilisateurs peuvent lancer des demandes et surveiller le statut de génération en temps réel. Le système fournira des mises à jour d'état, telles que "en cours" ou "terminées", afin que les utilisateurs puissent suivre les progrès à tout moment.
Cependant, comme il se trouve actuellement au stade alpha, il existe des limites connues à cette fonctionnalité. Premièrement, seules les pages accessibles au public sont prises en charge, la protection de connexion ou le contenu de la paroi payante ne peuvent pas être traités. Deuxièmement, dans la phase alpha, le nombre maximum de sites Web traités est de 5 000 URL. De plus, en tant que fonctionnalité alpha, le format de sortie et le flux de traitement peuvent être ajustés en fonction des commentaires des utilisateurs.
En termes de facturation, le coût de l'utilisation du générateur LLMS.TXT est basé sur le nombre d'URL traités, et le coût de base est consommé 1 point pour chaque URL traitée. Les utilisateurs peuvent contrôler les frais en définissant le paramètre MAXURLS.
Entrée: https://docs.firecrawl.dev/features/alpha/llmstxt
Points clés:
Fournissez une URL du site Web pour générer rapidement des fichiers texte pour LLM.
Générez deux formats de texte pour faciliter les utilisateurs avec des besoins différents pour choisir et utiliser.
Seul le traitement des pages publics est pris en charge et il existe une limite de quantité pour la phase alpha.