Recentemente, o FireCrawl lançou um novo recurso - a interface do gerador LLMs.txt (versão alfa), projetada para ajudar os usuários a converter o conteúdo de qualquer site em arquivos de texto claro adequados para o treinamento de modelo de idioma grande (LLM). Os usuários precisam apenas fornecer o URL de um site, e o Firecrawl rastreará o site e suas páginas vinculadas e gerar arquivos de texto em dois formatos: llms.txt e llms-full.txt, que facilitam a análise e o treinamento subsequentes.

O fluxo de trabalho deste gerador é relativamente simples. Os usuários precisam apenas fornecer um URL e o sistema rastejará automaticamente o conteúdo do site e extrairá informações de texto limpas e significativas. Os arquivos gerados são divididos em dois tipos: llms.txt é um resumo conciso do conteúdo do site e contém informações importantes; LLMS-FULL.TXT é um conteúdo de texto mais detalhado e completo, adequado para usuários que precisam de análises detalhadas.
Durante o uso, os usuários podem definir alguns parâmetros -chave. O primeiro é "URL", que é o URL onde você deseja gerar o arquivo llms.txt. Os usuários também podem selecionar o parâmetro "maxurls" para controlar o número máximo de páginas rastejadas, com um intervalo entre 1 e 100, e o valor padrão é 10. Além disso, o usuário também pode escolher se deve gerar llms-full.txt, que não está definido para não gerar por padrão.
Vale ressaltar que o trabalho do gerador LLMS.TXT é realizado de forma assíncrona e os usuários podem iniciar solicitações e monitorar o status de geração em tempo real. O sistema fornecerá atualizações de status, como "em andamento" ou "concluído", para que os usuários possam acompanhar o progresso a qualquer momento.
No entanto, como está atualmente no estágio alfa, existem algumas limitações conhecidas nesse recurso. Primeiro, apenas as páginas acessíveis ao público são suportadas, a proteção de login ou o conteúdo do PayWall não pode ser processado. Em segundo lugar, na fase alfa, o número máximo de sites processados é de 5.000 URLs. Além disso, como recurso alfa, o formato de saída e o fluxo de processamento podem ser ajustados com base no feedback do usuário.
Em termos de cobrança, o custo do uso do gerador LLMS.TXT é baseado no número de URLs processados e o custo básico é 1 ponto consumido para cada URL processado. Os usuários podem controlar as taxas definindo o parâmetro maxurls.
Entrada: https://docs.firecrawl.dev/features/alpha/llmstxt
Pontos -chave:
Forneça um URL do site para gerar rapidamente arquivos de texto para LLM.
Gere dois formatos de texto para facilitar os usuários com diferentes necessidades para escolher e usar.
Somente o processamento da página pública é suportada e há um limite de quantidade para a fase alfa.