Недавно FireCRAWL запустил новую функцию - интерфейс LLMS.txt Generator (Alpha версия), предназначенный для того, чтобы помочь пользователям преобразовать контент любого веб -сайта в четкие текстовые файлы, подходящие для обучения для большой языковой модели (LLM). Пользователям необходимо предоставить только URL-адрес веб-сайта, и FireCRAWL будет ползти по веб-сайту и его связанным страницам и генерирует текстовые файлы в двух форматах: llms.txt и llms-full.txt, что облегчает последующий анализ и обучение.

Рабочий процесс этого генератора относительно прост. Пользователям необходимо только предоставить URL, и система автоматически сканирует содержимое веб -сайта и извлечет чистую и значимую текстовую информацию. Сгенерированные файлы разделены на два типа: llms.txt - это краткое изложение содержания веб -сайта и содержит ключевую информацию; LLMS-full.txt-это более подробный и полный текстовый контент, подходящий для пользователей, которым нужен углубленный анализ.
Во время использования пользователи могут установить некоторые ключевые параметры. Первый - это «URL», который является URL -адресом, где вы хотите генерировать файл llms.txt. Пользователи также могут выбрать параметр «maxurls» для управления максимальным количеством ползая страниц, с диапазоном от 1 до 100, а значение по умолчанию составляет 10. Кроме того, пользователь также может выбрать, можно ли генерировать LLMS-full.txt, который не будет генерировать по умолчанию.
Стоит отметить, что работа генератора llms.txt выполняется асинхронно, и пользователи могут инициировать запросы и отслеживать статус генерации в режиме реального времени. Система предоставит обновления статуса, такие как «в процессе» или «завершен», чтобы пользователи могли отслеживать прогресс в любое время.
Однако, поскольку он в настоящее время находится на стадии Альфа, в этой функции есть некоторые известные ограничения. Во -первых, поддерживаются только общедоступные страницы, защита входа в систему или контент Paywall не может быть обработана. Во -вторых, в альфа -фазе максимальное количество обработанных веб -сайтов составляет 5000 URL. Кроме того, в качестве альфа -функции выходной формат и поток обработки могут регулироваться на основе отзывов пользователей.
С точки зрения выставления счетов, стоимость использования генератора LLMS.TXT основана на количестве обработанных URL -адресов, а основная стоимость потребляется в 1 точку для каждого обработанного URL -адреса. Пользователи могут управлять платами, установив параметр Maxurls.
Вход: https://docs.firecrawl.dev/features/alpha/llmstxt
Ключевые моменты:
Предоставьте URL -адрес веб -сайта для быстрого генерирования текстовых файлов для LLM.
Создайте два текстовых формата, чтобы облегчить пользователям различные потребности и использовать.
Поддерживается только общедоступная обработка страниц, и существует предел для альфа -фазы.