Recientemente, FireCrawl ha lanzado una nueva característica: la interfaz del generador LLMS.TXT (versión alfa), diseñada para ayudar a los usuarios a convertir el contenido de cualquier sitio web en archivos de texto claros adecuados para capacitación de modelos de idiomas grandes (LLM). Los usuarios solo necesitan proporcionar la URL de un sitio web, y Firecrawl rastreará el sitio web y sus páginas vinculadas y generará archivos de texto en dos formatos: LLMS.TXT y LLMS-FULL.TXT, lo que facilita el análisis y capacitación posteriores.

El flujo de trabajo de este generador es relativamente simple. Los usuarios solo necesitan proporcionar una URL, y el sistema rastreará automáticamente el contenido del sitio web y extraerá información de texto limpia y significativa. Los archivos generados se dividen en dos tipos: LLMS.TXT es un resumen conciso del contenido del sitio web y contiene información clave; LLMS-FULL.TXT es un contenido de texto más detallado y completo, adecuado para los usuarios que necesitan un análisis en profundidad.
Durante el uso, los usuarios pueden establecer algunos parámetros clave. El primero es "URL", que es la URL en la que desea generar el archivo LLMS.txt. Los usuarios también pueden seleccionar el parámetro "MaxUrls" para controlar el número máximo de páginas rastreadas, con un rango de entre 1 y 100, y el valor predeterminado es 10. Además, el usuario también puede elegir si generar LLMS-Full.txt, que está configurado para no generar de forma predeterminada.
Vale la pena señalar que el trabajo del generador LLMS.TXT se lleva a cabo de manera asincrónica, y los usuarios pueden iniciar solicitudes y monitorear el estado de la generación en tiempo real. El sistema proporcionará actualizaciones de estado, como "en progreso" o "completado", para que los usuarios puedan realizar un seguimiento del progreso en cualquier momento.
Sin embargo, como se encuentra actualmente en la etapa alfa, hay algunas limitaciones conocidas en esta característica. Primero, solo se admiten páginas de acceso público, no se puede procesar la protección de inicio de sesión o el contenido de pared de pago. En segundo lugar, en la fase alfa, el número máximo de sitios web procesados es de 5,000 URL. Además, como característica alfa, el formato de salida y el flujo de procesamiento pueden ajustarse en función de la retroalimentación del usuario.
En términos de facturación, el costo de usar el generador LLMS.TXT se basa en el número de URL procesadas, y el costo básico es 1 punto consumido para cada URL procesada. Los usuarios pueden controlar las tarifas configurando el parámetro MaxUrls.
Entrada: https://docs.firecrawl.dev/features/alpha/llmstxt
Puntos clave:
Proporcione una URL del sitio web para generar rápidamente archivos de texto para LLM.
Genere dos formatos de texto para facilitar a los usuarios con diferentes necesidades para elegir y usar.
Solo se admite el procesamiento de páginas públicas, y hay un límite de cantidad para la fase alfa.