READ2ME скачать - READ2ME исходный код скачать

READ2ME

AI Исходный код

v0.1.0

Скачать

Read2me

Читать 2me баннер

Обзор

Read2me-это приложение FastAPI, которое получает контент из предоставленных URL-адресов, обрабатывает текст, преобразует его в речь, используя TTS Microsoft Azure или с локальными моделями TTS F5-TTS, Styletts2 или Piper TTS и течет полученных файлов MP3 с метадатами. Вы можете либо превратить полный текст в аудио, либо попросить LLM преобразовать семенный текст в подкаст. В настоящее время поддерживается Ollama и любой API, совместимый с OpenAI. Вы можете установить предоставленное расширение хрома в любом браузере на основе хрома (например, Chrome или Microsoft Edge) для отправки текущих URL-адресов или любого текста в SEAV, добавить источники и ключевые слова для автоматического извлечения.

Это в настоящее время бета -версия, но я планирую расширить ее на поддержку других типов контента (например, EPUB) в будущем и обеспечить более надежную поддержку для языков, отличных от английского. В настоящее время при использовании TTS Azure Edge по умолчанию он уже поддерживает другие языки и пытается автоматически его из текста, но качество может варьироваться в зависимости от языка.

Функции

Избирает и обрабатывает контент из URL -адресов HTML и сохраняет его в качестве файла разметки.
Преобразует текст в речь, используя TTS Microsoft Azure Edge (в настоящее время случайным образом выбирает из доступных многоязычных голосов для легко обработки нескольких языков).
Теги mp3 файлы с метаданными, включая заголовок, автор и дату публикации, если таковые имеются.
Добавляет изображение обложки с текущей датой в файлы MP3.
Для URL -адресов из Википедии используется библиотека Википедии Python для извлечения содержимого статьи
Автоматическое извлечение новых статей из указанных источников с определенными интервалами (в настоящее время жестко кодируется до два раза в день в 5:00 и 5 вечера по местному времени). Источники и ключевые слова могут быть указаны с помощью текстовых файлов.
Превратите любой семенный текст (URL или вручную введенный текст) в подкаст (в настоящее время работает с Edge-TTS и F5)
Расширение Chrome доступно в веб -магазине Chrome: Cread2me Browser Companion. Если вы предпочитаете установку расширения из источника, он также доступен в этом репозитории.

Требования

Python 3.10 или выше
Зависимости, перечисленные в requirements.txt для Edge-TTS, отдельные требования для F5 и Styletts2.

Установка

Установка Python

Клонировать репозиторий:

git clone https://github.com/WismutHansen/READ2ME.git
cd read2me

Создать и активировать виртуальную среду:
```
python -m venv .venv
source .venv/bin/activate   # On Windows: .venvScriptsactivate
```
Или, если вам нравится использовать УФ для управления пакетами:
```
uv venv
source .venv/bin/activate # On Windows: .venvScriptsactivate
```
Установить зависимости:
```
pip install -r requirements.txt (or uv pip install -r requirements.txt)
```
Для модели Local Styletts2 текста в речь, пожалуйста, установите дополнительные зависимости:
```
pip install -r requirements_stts2.txt (or uv pip install -r requirements_stts2.txt)
```
Для модели F5-TTS, пожалуйста, установите дополнительные зависимости:
```
pip install -r requirements_F5.txt (or uv pip install -r requirements_F5.txt)
```
Установите драматург
```
playwright install
```
При использовании ультрафиолета, пожалуйста, также установите:
```
uv pip install pip
```

Для местной поддержки Пиперта:

python3 -m TTS.piper_tts.instalpipertts (MacOS and Linux) or python -m TTS.piper_tts.instalpipertts (on Windows)

Примечание. FFMPEG требуется при использовании Styletts2 или Pipertts для преобразования файлов WAV в mp3. Styletts также требует, чтобы Espeak-NG был установлен в вашей системе.

Настройка переменных среды:

Переименовать файл .env.example в корневом директоре .env

OUTPUT_DIR=Output # Directory to store output files
SOURCES_FILE=sources.json # File containing sources to retrieve articles from twice a day
IMG_PATH=front.jpg # Path to image file to use as cover
OLLAMA_BASE_URL=http://localhost:11434    # Standard Port for Ollama
OPENAI_BASE_URL=http://localhost:11434/v1 # Example for Ollama Open AI compatible endpoint
OPENAI_API_KEY=skxxxxxx                   # Your OpenAI API Key in case of using the official OpenAI API
MODEL_NAME=llama3.2:latest
LLM_ENGINE=Ollama # Valid Options: Ollama, OpenAI

Вы можете использовать либо OLLAMA, либо любой API, совместимый с OpenAI для генерации титула и сценариев подкаста (также скоро появится функция))

Установка Docker

Клонировать репозиторий и переключиться на него:
```
git clone https://github.com/WismutHansen/READ2ME.git && cd read2me
```
Скопируйте .env.example to .env и отредактируйте содержимое: Важно: при использовании локального LLM-двигателя, например, Ollama, URL должен следовать этому формату «Host.docker.internal: 11434» (для Ollama) или «host.docker.internal: 1234» (для LMStudio)
Построить контейнер Docker
```
 docker build -t read2me . 
```
Примечание: время настройки занимает много времени, будьте терпеливы
Запустите контейнер Docker
```
 docker run -p 7777:7777 -d read2me
```
Примечание: время настройки занимает много времени, будьте терпеливы

Использование

Подготовьте файл переменных среды (.env):

Скопировать и переименовать .env.example to .env . Отредактируйте содержимое этого файла по мере того, как вы хотите, указав выходной каталог, файл задачи и путь изображения для использования для обложки файла mp3, а также файла источников и ключевых слов.

Запустите приложение FASTAPI:

uvicorn main:app --host 0.0.0.0 --port 7777

Или, если вы подключены к серверу Linux, например, через SSH и хотите сохранить приложение после закрытия сеанса

nohup uvicorn main:app --host 0.0.0.0 --port 7777 &

Это напишет все выходные выводы в файл с именем nohup.out в вашем текущем рабочем каталоге.

Добавьте URL -адреса для обработки:
Отправить запрос сообщения по адресу http://localhost:7777/v1/url/full с корпусом JSON, содержащим URL:
```
{
  "url" : " https://example.com/article "
}
```
Вы можете использовать curl или любого клиента API, как почтальон, чтобы отправить этот запрос таким образом:
```
curl -X POST http://localhost:7777/v1/url/full/ 
  -H " Content-Type: application/json " 
  -d ' {"url": "https://example.com/article"} '
  -d ' {"tts-engine": "edge"} '
```
Репозиторий также содержит работающее расширение хрома, которое вы можете установить в любом браузере на основе хрома (например, Google Chrome), когда настройки разработчика включены.
Обработки URL:
Приложение периодически проверяет файл tasks.json на новые задания для обработки. Он получает контент для данного URL, извлекает текст, преобразует его в речь и сохраняет полученные файлы MP3 с соответствующими метаданными.
Укажите источники и ключевые слова для автоматического поиска:

Создайте файл с названием sources.json в вашем текущем рабочем каталоге с URL -адресами на сайты, которые вы хотите отслеживать для новых статей. Вы также можете установить глобальные ключевые слова и ключевые слова для каждого источника, которые будут использоваться в качестве фильтров для автоматического поиска. Если вы установите «*» для источника, все новые статьи будут извлечены. Вот пример структура:

{
  "global_keywords" : [
    " globalkeyword1 " ,
    " globalkeyword2 "
  ],
  "sources" : [
    {
      "url" : " https://example.com " ,
      "keywords" : [ " keyword1 " , " keyword2 " ]
    },
    {
      "url" : " https://example2.com " ,
      "keywords" : [ " * " ]
    }
  ]
}

Расположение обоих файлов настраивается в .env file.

Внешний интерфейс

Чтобы использовать Frontend Next.js, убедитесь, что в вашей системе установлен Node.js. Примечание: Frontend в настоящее время находится на ранней стадии эксперимента, так что ожидайте множества ошибок: во -первых, переключиться в каталог Frontend

 cd frontend

Затем установите требуемые зависимости узла:

npm install

Затем, чтобы начать запуск Frontend:

npm run dev

Вы можете получить доступ к Frontend на http: // localhost: 3000

API конечные точки

Post/v1/url/full

Добавляет URL в список обработки.

Запросить тело:

{
  "url" : " https://example.com/article " ,
  "tts-engine" : " edge "
}

Ответ:

{
  "message" : " URL added to the processing list "
}

Post/v1/url/подкаст
Post/v1/text/full
Post/v1/text/podcast

Структура файла

main.py : основной файл приложения Fastapi.
Требования.txt : Список зависимостей.
.env : Файл переменных среды.
База данных/: каталог, содержащий базу данных SQLite и все код, связанные с базой данных
TTS/: каталог, содержащий код для всех инжевов TTS
utils/ : каталог с вспомогательными функциями для обработки задач, извлечения текста и т. Д.
Вывод/ : каталог, где выходные файлы (MP3 и MD) сохраняются, если вы не указали другой каталог int .ENV -файл.

Зависимости

FASTAPI : веб -структура для создания API.
Uvicorn : ASGI Server реализация для обслуживания приложений FastAPI.
Edge-TTS : Microsoft Azure Edge Text-To Speek Library.
Мутаген : библиотека для обработки звуковых метаданных.
Подушка : библиотека изображений Python (PIL) для обработки изображений.
Trafilatura : библиотека для сетевого соскоба и извлечения текста.
Запросы : HTTP Library для отправки запросов.
BeautifulSoup : библиотека для анализа документов HTML и XML.
PDFMINER : библиотека для извлечения текста из PDF -документов.
Python-Dotenv : библиотека для управления переменными среды.
Газета4K : Библиотека для извлечения статей с новостных сайтов.
Википедия : библиотека для извлечения информации из статей Википедии.
Расписание : библиотека для планирования задач. Используется для планирования автоматического поиска новостей два раза в день.
и многое другое, но я планирую немного уменьшить зависимости, удалив избыточные средства и т. Д.

Внося

Вилка репозитория.

Создайте новую ветку:

git checkout -b feature/your-feature-name

Внесите свои изменения и совершите их:
```
git commit -m ' Add some feature '
```

Толкайте к ветке:

git push origin feature/your-feature-name

Отправьте запрос на вытяжение.

Лицензия

Этот проект лицензирован в соответствии с лицензией Apache, версия 2.0, январь 2004 года, за исключением кода Styletts2, который лицензирован по лицензии MIT. Предварительно обученные модели F5-TTS ABD Styletts2 находятся под собственной лицензией.

Предварительно обученные модели Styletts2: Перед использованием этих предварительно обученных моделей вы соглашаетесь сообщить слушателям, что речевые образцы синтезируются предварительно обученными моделями, если у вас нет разрешения использовать голос, который вы синтезируете. То есть вы соглашаетесь использовать только голоса, ораторы которых предоставляют разрешение на клонировать свой голос, либо напрямую, либо по лицензии, прежде чем публиковать синтезированные голоса, или вы должны публично объявить, что эти голоса синтезируются, если у вас нет разрешения на использование этих голосов.

Дорожная карта

Обнаружение языка и выбор голоса на основе обнаруженного языка (в настоящее время работает только для Edge-TTS).
Добавьте поддержку для обработки файлов PDF
Добавьте поддержку локального двигателя текста в речь (TTS), такого как Styletts2.
Добавьте поддержку обработки текста на основе LLM, такую как транскрипт подкастов с локальными LLMS через OLLAMA или API OpenAI
Добавьте поддержку F5-TTS
Добавьте поддержку автоматической подписания изображений с использованием локальных моделей зрения или API OpenAI

Благодарности

Я хотел бы поблагодарить следующие репозитории и авторов за их вдохновение и код:

F5 -TTS - в настоящее время лучшая модель открытых весов TTS!
Stylyetts2 - отличный двигатель TTS с открытым исходным кодом и очень быстрый, если использует Nvidia/Cuda
Pipertts - еще один хороший локальный двигатель TTS, который также работает на системах с низкой спецификацией
Всегда Redddy - Спасибо этим ребятам, я работал в своем проекте
RVC -Python - для улучшения сгенерированной речи
Edge -TTS - лучший бесплатный онлайн -двигатель TTS

Расширять

Дополнительная информация