Скачать search result scraper markdown - загрузка search result scraper markdown

search result scraper markdown

Другой исходный код

1.0.0

Скачать

Jina.ai Альтернативный скребок результатов поиска с выходом Markdown с использованием Fastapi, Searxng, Browser и интеграции AI

Английский | 中文版

Описание

Этот проект предоставляет мощный инструмент для очистки веб -скребки, который получает результаты поиска и преобразует их в формат Markdown, используя FastAPI, SEARXNG и Browserless. Он включает в себя возможность использования прокси для сетевого соскоба и эффективно обрабатывать HTML Content. Теперь включает интеграцию ИИ для фильтрации результатов поиска. Альтернативы включают Jina.ai, FireCRAWL AI, EXA AI и 2Markdown, предлагающие различные решения для разработчиков и поисковые системы.

Jina.ai Альтернативный скребок результатов поиска с выходом Markdown с использованием Fastapi, Searxng, Browser и интеграции AI
- Описание
- Оглавление
- Альтернативы:
- Функции
- Предварительные условия
- Настройка Docker
- Ручная установка
- Использование
  - Поиск конечной точки
  - Принесите URL -контент
  - Привлечение изображений
  - Привлечение видео
- Использование прокси
- Дорожная карта
- Код объяснение
- Лицензия
- Автор
- Вклад
- Благодарности
- Звездная история

Альтернативы:

Jina.ai: мощная поисковая система для разработчиков.
FireCRAWL AI: API веб -царапины для разработчиков.
Exa AI: API веб -царапины для разработчиков.
2markdown: инструмент для скребки веб -сети, который преобразует HTML в Markdown.

Функции

FOSTAPI : современная, быстрая веб -структура для создания API с Python.
SEARXNG : двигатель с открытым исходным кодом в Интернете.
Бруппер без браузера : услуга автоматизации веб -браузера.
Выход разметки : преобразует контент HTML в формат разметки.
Поддержка прокси : использует прокси для безопасного и анонимного соскоба.
Интеграция AI (reranker AI) : результаты поиска фильтровали результаты поиска с использованием AI, чтобы обеспечить наиболее релевантный контент.
Транскрипции на YouTube : выбирает видео -транскрипции на YouTube.
Изображение и поиск в видео : получает изображения и результаты видео с использованием searxng.

Предварительные условия

Убедитесь, что у вас установлено следующее:

Python 3.11
Virtualenv
Докер

Настройка Docker

Вы можете использовать Docker для упрощения процесса настройки. Следуйте этим шагам:

Клонировать репозиторий :

git clone https://github.com/essamamdani/search-result-scraper-markdown.git
cd search-result-scraper-markdown

Запустить Docker Compose :
```
docker compose up --build
```

С помощью этой настройки, если вы измените файл .env или main.py , вам больше не нужно перезапускать Docker. Изменения будут перезагружены автоматически.

Ручная установка

Следуйте этим шагам для ручной настройки:

Клонировать репозиторий :

git clone https://github.com/essamamdani/search-result-scraper-markdown.git
cd search-result-scraper-markdown

Создать и активировать виртуальную среду :
```
virtualenv venv
source venv/bin/activate
```
Установить зависимости :
```
pip install -r requirements.txt
```

Создайте файл .env в корневом каталоге со следующим контентом:

SEARXNG_URL=http://searxng:8080
BROWSERLESS_URL=http://browserless:3000
TOKEN=your_browserless_token_here  # Replace with your actual token
# PROXY_PROTOCOL=http
# PROXY_URL=your_proxy_url
# PROXY_USERNAME=your_proxy_username
# PROXY_PASSWORD=your_proxy_password
# PROXY_PORT=your_proxy_port
REQUEST_TIMEOUT=30

# AI Integration for search result filter
FILTER_SEARCH_RESULT_BY_AI=true
AI_ENGINE=groq
# GROQ
GROQ_API_KEY=yours_groq_api_key_here
GROQ_MODEL=llama3-8b-8192
# OPENAI
# OPENAI_API_KEY=your_openai_api_key_here
# OPENAI_MODEL=gpt-3.5-turbo-0125

Запустите контейнеры Docker для Searxng и Browserless :
```
./run-services.sh
```
Начните приложение FastAPI :
```
uvicorn main:app --host 0.0.0.0 --port 8000
```

Использование

Поиск конечной точки

Чтобы выполнить поисковый запрос, отправьте запрос GET в корневую конечную точку / с параметрами запроса q (поисковый запрос), num_results (количество результатов) и format (получите ответ в JSON или по умолчанию в Markdown).

Пример:

curl " http://localhost:8000/?q=python&num_results=5&format=json " # for JSON format
curl " http://localhost:8000/?q=python&num_results=5 " # by default Markdown

Принесите URL -контент

Чтобы получить и преобразовать содержимое определенного URL в Markdown, отправьте запрос GET в конечную точку /r/{url:path} .

Пример:

curl " http://localhost:8000/r/https://example.com&format=json " # for JSON format
curl " http://localhost:8000/r/https://example.com " # by default Markdown

Привлечение изображений

Чтобы получить результаты поиска изображения, отправьте запрос GET в конечную точку /images с параметрами запроса q (поисковый запрос) и num_results (количество результатов).

Пример:

curl " http://localhost:8000/images?q=puppies&num_results=5 "

Привлечение видео

Чтобы получить результаты поиска видео, отправьте запрос GET в конечную точку /videos с параметрами запроса q (поисковый запрос) и num_results (количество результатов).

Пример:

curl " http://localhost:8000/videos?q=cooking+recipes&num_results=5 "

Использование прокси

Этот проект использует прокси Geonode для сетевого соскоба. Вы можете использовать мою аффилированную ссылку Geonode, чтобы начать работу с их прокси -службами.

Дорожная карта

FOSTAPI : современная, быстрая веб -структура для создания API с Python.
SEARXNG : двигатель с открытым исходным кодом в Интернете.
Бруппер без браузера : услуга автоматизации веб -браузера.
Выход разметки : преобразует контент HTML в формат разметки.
Поддержка прокси : использует прокси для безопасного и анонимного соскоба.
Интеграция AI (reranker AI) : результаты поиска фильтровали результаты поиска с использованием AI, чтобы обеспечить наиболее релевантный контент.
Транскрипции на YouTube : выбирает видео -транскрипции на YouTube.
Изображение и поиск в видео : получает изображения и результаты видео с использованием searxng.

Код объяснение

Для получения подробного объяснения кода, посетите статью здесь.

Лицензия

Этот проект лицензирован по лицензии MIT. Смотрите файл лицензии для получения подробной информации.

Автор

Essa Mamdani - Essamamdani.com

Вклад

Взносы приветствуются! Пожалуйста, не стесняйтесь отправить запрос на привлечение.

Благодарности

FASTAPI
Searxng
Браузер без

Звездная история

Расширять

Дополнительная информация

Версия 1.0.0
Тип Другой исходный код
Время обновления 2025-03-03
размер 32.71KB
От Github

Связанные приложения

google noto emoji scraper

2024-11-14
Поиск слов 800

2024-11-08
azure search python samples

2024-11-05
markdown download

2024-11-01
Последняя версия игры-головоломки «Поиск слов»

2024-07-11
Лиехуо Поиск Английский поиск!

2011-01-07

search result scraper markdown

Jina.ai Альтернативный скребок результатов поиска с выходом Markdown с использованием Fastapi, Searxng, Browser и интеграции AI

Описание

Оглавление

Альтернативы:

Функции

Предварительные условия

Настройка Docker

Ручная установка

Использование

Поиск конечной точки

Принесите URL -контент

Привлечение изображений

Привлечение видео

Использование прокси

Дорожная карта

Код объяснение

Лицензия

Автор

Вклад

Благодарности

Звездная история

google noto emoji scraper

Поиск слов 800

azure search python samples

markdown download

Последняя версия игры-головоломки «Поиск слов»

Лиехуо Поиск Английский поиск!

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express