Télécharger READ2ME - Téléchargement du code source READ2ME

READ2ME

Code Source AI

v0.1.0

Télécharger

Read2me

Bannière Read2me

Aperçu

Read2Me est une application FastAPI qui récupére le contenu à partir d'URL fournies, traite le texte, le convertit en parole à l'aide de TTS Edge de Microsoft Azure ou avec les modèles TTS locaux F5-TTS, Styletts2 ou Piper TTS, et marque les fichiers MP3 résultants avec des métadonnées. Vous pouvez soit transformer le texte intégral en audio, soit faire convertir le texte de la graine LLM en un podcast. Actuellement, Ollama et toute API compatible OpenAI sont prises en charge. Vous pouvez installer l'extension de chrome fournie dans n'importe quel navigateur à base de chrome (par exemple Chrome ou Microsoft Edge) pour envoyer des URL actuelles ou tout texte au Sever, Add Sources et Mots-clés pour la récupération automatique.

Il s'agit actuellement d'une version bêta, mais je prévois de l'étendre pour prendre en charge d'autres types de contenu (par exemple, EPUB) à l'avenir et fournir un support plus robuste pour les langues autres que l'anglais. Actuellement, lors de l'utilisation de l'Azure Edge TTS par défaut, il prend déjà en charge d'autres langues et essaie de le faire automatiquement à partir du texte, mais la qualité peut varier en fonction de la langue.

Caractéristiques

Retrait et traite le contenu des URL HTML et l'enregistre en tant que fichier de démarrage.
Convertit le texte en parole à l'aide de TTS Edge de Microsoft Azure (sélectionnant actuellement au hasard dans les voix multilingues disponibles pour gérer facilement plusieurs langues).
Tags Fichiers MP3 avec des métadonnées, y compris le titre, l'auteur et la date de publication, si disponible.
Ajoute une image de couverture avec la date actuelle aux fichiers MP3.
Pour les URL de Wikipedia, utilise la bibliothèque Wikipedia Python pour extraire le contenu de l'article
Récupération automatique de nouveaux articles provenant de sources spécifiées à des intervalles définis (actuellement codé en dur à deux fois par jour à 5 h et 17 h, heure locale). Les sources et les mots clés peuvent être spécifiés via des fichiers texte.
Transformez tout texte de graine (URL ou texte saisi manuellement) en podcast (fonctionne actuellement avec Edge-TTS et F5)
Extension Chrome Disponible sur le Chrome Webstore: Read2Me Browser Companion. Si vous prévoyez l'installation de l'extension à partir de la source, elle est également disponible dans ce référentiel.

Exigences

Python 3.10 ou plus
Dépendances répertoriées dans requirements.txt pour Edge-TTS, exigences distinctes pour F5 et Styletts2.

Installation

Installation de Python

Clone le référentiel:

git clone https://github.com/WismutHansen/READ2ME.git
cd read2me

Créer et activer un environnement virtuel:

python -m venv .venv
source .venv/bin/activate   # On Windows: .venvScriptsactivate

ou si vous aimez utiliser des UV pour la gestion des packages:

uv venv
source .venv/bin/activate # On Windows: .venvScriptsactivate

Installez les dépendances:
```
pip install -r requirements.txt (or uv pip install -r requirements.txt)
```
Pour le modèle local Styletts2 text-the-dispeech, veuillez également installer les dépendances supplémentaires:
```
pip install -r requirements_stts2.txt (or uv pip install -r requirements_stts2.txt)
```
Pour le modèle F5-TTS, veuillez également installer les dépendances supplémentaires:
```
pip install -r requirements_F5.txt (or uv pip install -r requirements_F5.txt)
```
Installer le dramaturge
```
playwright install
```
Si vous utilisez UV, veuillez également installer:
```
uv pip install pip
```

Pour le support local de Pipertts:

python3 -m TTS.piper_tts.instalpipertts (MacOS and Linux) or python -m TTS.piper_tts.instalpipertts (on Windows)

Remarque: FFMPEG est requis lors de l'utilisation de Styletts2 ou de Pipertts pour convertir les fichiers WAV en MP3. Styletts nécessite également que ESPEAK-NG soit installé sur votre système.

Configurer des variables d'environnement:

Renommer le fichier .env.example dans le directeur racine à .env et modifier le contenu à votre préférence:

OUTPUT_DIR=Output # Directory to store output files
SOURCES_FILE=sources.json # File containing sources to retrieve articles from twice a day
IMG_PATH=front.jpg # Path to image file to use as cover
OLLAMA_BASE_URL=http://localhost:11434    # Standard Port for Ollama
OPENAI_BASE_URL=http://localhost:11434/v1 # Example for Ollama Open AI compatible endpoint
OPENAI_API_KEY=skxxxxxx                   # Your OpenAI API Key in case of using the official OpenAI API
MODEL_NAME=llama3.2:latest
LLM_ENGINE=Ollama # Valid Options: Ollama, OpenAI

Vous pouvez utiliser Olllama ou toute API compatible OpenAI pour la génération de scripts de titre et de podcast (fonction de résumé à venir également bientôt)

Installation de Docker

Clone le référentiel et passez-y:

git clone https://github.com/WismutHansen/READ2ME.git && cd read2me

Copiez le .env.example sur .env et modifiez le contenu: Important: Lorsque vous utilisez un LLM-Engine local, l'URL doit suivre ce format "host.docker.internal: 11434" (pour oLlama) ou "host.docker.internal: 1234" (pour LMStudio)
Construisez le conteneur Docker
```
 docker build -t read2me . 
```
Remarque: le temps de construction prend beaucoup de temps, soyez patient
Exécutez le conteneur Docker
```
 docker run -p 7777:7777 -d read2me
```
Remarque: le temps de construction prend beaucoup de temps, soyez patient

Usage

Préparer le fichier des variables d'environnement (.env):

Copier et renommer .env.example à .env . Modifiez le contenu de ce fichier comme vous le souhaitez, en spécifiant le répertoire de sortie, le fichier de tâche et le chemin d'image à utiliser pour la couverture de fichier MP3 ainsi que le fichier de sources et de mots clés.

Exécutez l'application Fastapi:

uvicorn main:app --host 0.0.0.0 --port 7777

Ou, si vous êtes connecté à un serveur Linux, par exemple via SSH et que vous souhaitez faire fonctionner l'application après la fermeture de votre session

nohup uvicorn main:app --host 0.0.0.0 --port 7777 &

Cela écrira toutes les sorties de ligne de commande dans un fichier appelé nohup.out dans votre répertoire de travail actuel.

Ajouter des URL pour le traitement:
Envoyez une demande de poste à http://localhost:7777/v1/url/full avec un corps JSON contenant l'URL:
```
{
  "url" : " https://example.com/article "
}
```
Vous pouvez utiliser curl ou n'importe quel client API comme Postman pour envoyer cette demande comme ceci:
```
curl -X POST http://localhost:7777/v1/url/full/ 
  -H " Content-Type: application/json " 
  -d ' {"url": "https://example.com/article"} '
  -d ' {"tts-engine": "edge"} '
```
Le référentiel contient également une extension de chrome de travail que vous pouvez installer dans n'importe quel navigateur basé sur le chrome (par exemple Google Chrome) lorsque les paramètres du développeur sont activés.
URL de traitement:
L'application vérifie périodiquement le fichier tasks.json pour les nouveaux emplois à traiter. Il récupère le contenu d'une URL donnée, extrait du texte, le convertit en parole et enregistre les fichiers MP3 résultants avec des métadonnées appropriées.
Spécifiez les sources et les mots clés pour la récupération automatique:

Créez un fichier appelé sources.json dans votre répertoire de travail actuel avec des URL sur des sites Web que vous souhaitez surveiller pour de nouveaux articles. Vous pouvez également définir des mots clés globaux et des mots clés par source à utiliser comme filtres pour la récupération automatique. Si vous définissez "*" pour une source, tous les nouveaux articles seront récupérés. Voici un exemple de structure:

{
  "global_keywords" : [
    " globalkeyword1 " ,
    " globalkeyword2 "
  ],
  "sources" : [
    {
      "url" : " https://example.com " ,
      "keywords" : [ " keyword1 " , " keyword2 " ]
    },
    {
      "url" : " https://example2.com " ,
      "keywords" : [ " * " ]
    }
  ]
}

L'emplacement des deux fichiers est configurable dans le fichier .env.

L'extrémité avant

Pour utiliser le frontend suivant.js, assurez-vous que Node.js est installé sur votre système. Remarque: Frontend est actuellement dans un stade expérimental précoce, alors attendez-vous à beaucoup de bugs: tout d'abord, passez dans le répertoire frontal

 cd frontend

Installez ensuite les dépendances de nœud requises:

npm install

Ensuite, pour démarrer le frontend Run:

npm run dev

Vous pouvez accéder au frontend sur http: // localhost: 3000

Points de terminaison API

Post / V1 / URL / Full

Ajoute une URL à la liste de traitement.

Corps de demande:

{
  "url" : " https://example.com/article " ,
  "tts-engine" : " edge "
}

Réponse:

{
  "message" : " URL added to the processing list "
}

Post / v1 / url / podcast
Post / V1 / Texte / complet
Post / v1 / text / podcast

Structure de fichiers

Main.py : le fichier d'application FastAPI principal.
exigences.txt : liste des dépendances.
.env : fichier de variables d'environnement.
base de données /: répertoire contenant la base de données SQLite et tout le code lié à la base de données
TTS /: répertoire contenant le code pour toutes les moteurs TTS
utils / : répertoire avec fonctions d'assistance pour la gestion des tâches, l'extraction de texte, etc.
Output / : répertoire où les fichiers de sortie (MP3 et MD) sont enregistrés, sauf si vous avez spécifié un répertoire différent dans le fichier .env.

Dépendances

Fastapi : Framework Web pour la construction d'API.
Uvicorn : implémentation ASGI Server pour servir les applications FastAPI.
Edge-TTS : Microsoft Azure Edge Text-to-Speech Library.
Mutagen : Bibliothèque pour gérer les métadonnées audio.
Oreiller : Python Imaging Library (PIL) pour le traitement d'image.
Trafilatura : bibliothèque pour le grattage Web et l'extraction de texte.
Demandes : bibliothèque HTTP pour les demandes d'envoi.
BeautifulSoup : Bibliothèque pour analyser les documents HTML et XML.
PDFMINER : Bibliothèque pour extraire du texte des documents PDF.
Python-Dotenv : Library for Gestion des variables environnementales.
Newspaper4k : Library for Extraction des articles des sites de nouvelles.
Wikipedia : Bibliothèque pour extraire des informations des articles Wikipedia.
Horaire : bibliothèque pour les tâches de planification. Utilisé pour planifier une récupération automatique de nouvelles deux fois par jour.
Et bien d'autres, mais je prévois de réduire un peu les dépendances en supprimant les redondances, etc.

Contributif

Fourk le référentiel.

Créez une nouvelle branche:

git checkout -b feature/your-feature-name

Faites vos modifications et les engagez-les:
```
git commit -m ' Add some feature '
```

Poussez à la branche:

git push origin feature/your-feature-name

Soumettre une demande de traction.

Licence

Ce projet est sous licence en vertu de la version 2.0 de la licence Apache, janvier 2004, à l'exception du code Styletts2, qui est sous licence MIT. Les modèles pré-formés F5-TTS ABD Styletts2 sont sous leur propre licence.

Modèles pré-formés Styletts2: Avant d'utiliser ces modèles pré-formés, vous acceptez d'informer les auditeurs que les échantillons de parole sont synthétisés par les modèles pré-formés, sauf si vous avez la permission d'utiliser la voix que vous synthétisez. Autrement dit, vous acceptez d'utiliser uniquement des voix dont les conférenciers accordent l'autorisation de se faire cloner la voix, soit directement, soit par licence avant de rendre publiques les voix synthétisées, ou vous devez annoncer publiquement que ces voix sont synthétisées si vous n'avez pas l'autorisation d'utiliser ces voix.

Feuille de route

Détection du langage et sélection de voix basées sur le langage détecté (ne fonctionne actuellement que pour Edge-TTS).
Ajouter la prise en charge de la gestion des fichiers PDF
Ajoutez la prise en charge du moteur de texte à dispection local (TTS) comme Styletts2.
Ajoutez une prise en charge du traitement de texte basé sur LLM comme la transcription du podcast avec les LLM locaux via Olllama ou l'API OpenAI
Ajouter la prise en charge de F5-TTS
Ajouter la prise en charge du sous-titrage d'image automatique à l'aide de modèles de vision locaux ou de l'API OpenAI

Remerciements

Je tiens à remercier les référentiels et auteurs suivants pour leur inspiration et leur code:

F5-TTS - Actuellement le meilleur modèle TTS à poids ouvert!
Stylyetts2 - Un excellent moteur TTS open source, et très rapidement si vous utilisez Nvidia / Cuda
Pipertts - Un autre bon moteur TTS local qui fonctionne également sur les systèmes à faible spécification
Toujoursdredy - Grâce à ces gars, j'ai fait travailler Piper TTS dans mon projet
RVC-Python - pour améliorer la parole générée
Edge-TTS - Meilleur moteur TTS en ligne gratuit

Développer

Informations supplémentaires

Version v0.1.0
Type Code Source AI
Date de mise à jour 2025-08-21
taille 50.53MB
Provenant de Github

Applications connexes

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout