READ2ME Descargar - Descargar el código fuente READ2ME

READ2ME

Código Fuente de IA

v0.1.0

Descargar

Read2me

Banner de lectura2ME

Descripción general

Read2Me es una aplicación Fastapi que obtiene contenido de URL proporcionadas, procesa el texto, lo convierte en voz utilizando los TT de Microsoft Azure's Edge o con los modelos TTS locales F5-TTS, Styletts2 o Piper TTS, y etiqueta los archivos MP3 resultantes con metadatos. Puede convertir el texto completo en audio o hacer que un LLM convierta el texto de la semilla en un podcast. Actualmente, Ollama y cualquier API compatible de OpenAI es compatible. Puede instalar la extensión de cromo proporcionada en cualquier navegador basado en Chromium (por ejemplo, Chrome o Microsoft Edge) para enviar URL actuales o cualquier texto al Sever, agregar fuentes y palabras clave para obtener una recuperación automática.

Esta es actualmente una versión beta, pero planeo extenderla para admitir otros tipos de contenido (por ejemplo, EPUB) en el futuro y proporcionar un soporte más robusto para idiomas distintos del inglés. Actualmente, cuando se usa el Azure Edge TTS predeterminado, ya admite otros idiomas e intenta autodetectarlo desde el texto, pero la calidad puede variar según el idioma.

Características

Obtiene y procesa contenido de URL HTML y lo guarda como un archivo de Markdown.
Convierte el texto en habla utilizando Microsoft Azure's Edge TTS (actualmente seleccionando aleatoriamente de las voces multilingües disponibles para manejar fácilmente varios idiomas).
Etiqueta archivos MP3 con metadatos, incluido el título, el autor y la fecha de publicación, si están disponibles.
Agrega una imagen de portada con la fecha actual a los archivos MP3.
Para las URL de Wikipedia, usa la Biblioteca Wikipedia Python para extraer contenido del artículo
Recuperación automática de nuevos artículos de fuentes especificadas a intervalos definidos (actualmente codificados a dos veces al día a las 5 a.m. y a las 5 p.m. hora local). Las fuentes y las palabras clave se pueden especificar a través de archivos de texto.
Convierta cualquier texto de semilla (URL o texto ingresado manualmente) en un podcast (actualmente funciona con Edge-TTS y F5)
Extensión de Chrome disponible en la tienda web Chrome: Read2Me Browser Companion. Si prefiere instalar la extensión desde la fuente, también está disponible en este repositorio.

Requisitos

Python 3.10 o superior
Dependencias enumeradas en requirements.txt .

Instalación

Instalación de Python

Clon el repositorio:

git clone https://github.com/WismutHansen/READ2ME.git
cd read2me

Crear y activar un entorno virtual:

python -m venv .venv
source .venv/bin/activate   # On Windows: .venvScriptsactivate

O si desea usar UV para la gestión de paquetes:

uv venv
source .venv/bin/activate # On Windows: .venvScriptsactivate

Instalar dependencias:

pip install -r requirements.txt (or uv pip install -r requirements.txt)

Para el modelo local de texto a voz de STYLETTS2, también instale las dependencias adicionales:

pip install -r requirements_stts2.txt (or uv pip install -r requirements_stts2.txt)

Para el modelo F5-TTS, también instale las dependencias adicionales:

pip install -r requirements_F5.txt (or uv pip install -r requirements_F5.txt)

Instalar dramaturgo

playwright install

Si usa UV, también instale:

uv pip install pip

Para el soporte local de Pipertts:

python3 -m TTS.piper_tts.instalpipertts (MacOS and Linux) or python -m TTS.piper_tts.instalpipertts (on Windows)

Nota: Se requiere FFMPEG cuando se usa STYLETTS2 o PIPERTTS para convertir archivos WAV en MP3. Styletts también requiere que se instalen espeak-ng en su sistema.

Configurar variables de entorno:

Renombrar el archivo .env.example en el director raíz a .env y editar el contenido a su preferencia:

OUTPUT_DIR=Output # Directory to store output files
SOURCES_FILE=sources.json # File containing sources to retrieve articles from twice a day
IMG_PATH=front.jpg # Path to image file to use as cover
OLLAMA_BASE_URL=http://localhost:11434    # Standard Port for Ollama
OPENAI_BASE_URL=http://localhost:11434/v1 # Example for Ollama Open AI compatible endpoint
OPENAI_API_KEY=skxxxxxx                   # Your OpenAI API Key in case of using the official OpenAI API
MODEL_NAME=llama3.2:latest
LLM_ENGINE=Ollama # Valid Options: Ollama, OpenAI

Puede usar Ollama o cualquier API compatible de OpenAI para la generación de scripts de título y podcast (la función resumida también llegará pronto)

Instalación de Docker

Clonar el repositorio y cambiarlo:

git clone https://github.com/WismutHansen/READ2ME.git && cd read2me

Copie el .env.example a .env y edite el contenido: IMPORTANTE: Cuando se usa un motor LLM local, por ejemplo, la URL, la URL debe seguir este formato "Host.docker.Internal: 11434" (para Ollama) o "Host.docker.internal: 1234" (para LMStudio)
Construye el contenedor Docker
```
 docker build -t read2me . 
```
Nota: El tiempo de compilación lleva mucho tiempo, sea paciente
Ejecute el contenedor Docker
```
 docker run -p 7777:7777 -d read2me
```
Nota: El tiempo de compilación lleva mucho tiempo, sea paciente

Uso

Prepare el archivo de variables de entorno (.env):

Copie y cambie el nombre .env.example a .env . Edite el contenido de este archivo como desee, especificando el directorio de salida, el archivo de tareas y la ruta de imagen para usar para la portada del archivo mp3, así como el archivo de fuentes y palabras clave.

Ejecute la aplicación Fastapi:

uvicorn main:app --host 0.0.0.0 --port 7777

O, si está conectado a un servidor de Linux, por ejemplo, a través de SSH y desea mantener la aplicación en funcionamiento después de cerrar su sesión

nohup uvicorn main:app --host 0.0.0.0 --port 7777 &

Esto escribirá toda la salida de línea de comandos en un archivo llamado nohup.out en su directorio de trabajo actual.

Agregue URL para el procesamiento:
Envíe una solicitud de publicación a http://localhost:7777/v1/url/full con un cuerpo json que contiene la URL:
```
{
  "url" : " https://example.com/article "
}
```
Puede usar curl o cualquier cliente API como Postman para enviar esta solicitud como esta:
```
curl -X POST http://localhost:7777/v1/url/full/ 
  -H " Content-Type: application/json " 
  -d ' {"url": "https://example.com/article"} '
  -d ' {"tts-engine": "edge"} '
```
El repositorio también contiene una extensión de cromo en funcionamiento que puede instalar en cualquier navegador basado en cromo (por ejemplo, Google Chrome) cuando la configuración del desarrollador está habilitada.
URL de procesamiento:
La aplicación verifica periódicamente el archivo de tasks.json para que los nuevos trabajos procesen. Obtiene el contenido para una URL dada, extrae texto, lo convierte en discurso y guarda los archivos MP3 resultantes con metadatos apropiados.
Especificar fuentes y palabras clave para la recuperación automática:

Cree un archivo llamado sources.json en su directorio de trabajo actual con URL a sitios web que desea monitorear para nuevos artículos. También puede establecer palabras clave globales y palabras clave por fuente para ser utilizadas como filtros para la recuperación automática. Si configura "*" para una fuente, se recuperarán todos los artículos nuevos. Aquí hay una estructura de ejemplo:

{
  "global_keywords" : [
    " globalkeyword1 " ,
    " globalkeyword2 "
  ],
  "sources" : [
    {
      "url" : " https://example.com " ,
      "keywords" : [ " keyword1 " , " keyword2 " ]
    },
    {
      "url" : " https://example2.com " ,
      "keywords" : [ " * " ]
    }
  ]
}

La ubicación de ambos archivos es configurable en el archivo .env.

Interfaz

Para usar el frontend de Next.js, asegúrese de tener Node.js instalado en su sistema. Nota: Frontend se encuentra actualmente en una etapa experimental temprana, así que espere muchos errores: primero, cambie al directorio de frontend

 cd frontend

Luego instale las dependencias del nodo requeridas:

npm install

Luego para comenzar la carrera frontend:

npm run dev

Puede acceder al frontend en http: // localhost: 3000

Puntos finales de API

Post/v1/url/completo

Agrega una URL a la lista de procesamiento.

Solicitud de cuerpo:

{
  "url" : " https://example.com/article " ,
  "tts-engine" : " edge "
}

Respuesta:

{
  "message" : " URL added to the processing list "
}

Post/v1/url/podcast
Post/v1/texto/completo
Post/v1/text/podcast

Estructura de archivo

Main.py : el archivo principal de aplicación Fastapi.
requisitos.txt : lista de dependencias.
.env : archivo de variables de entorno.
base de datos/: directorio que contiene la base de datos SQLite y todo el código relacionado con la base de datos
TTS/: Directorio que contiene el código para todos los motores TTS
Utils/ : Directorio con funciones auxiliar para manejo de tareas, extracción de texto, etc.
Salida/ : Directorio donde se guardan los archivos de salida (MP3 y MD) a menos que haya especificado un directorio diferente en el archivo .env.

Dependencias

FASTAPI : Marco web para construir API.
UVICORN : Implementación del servidor ASGI para servir aplicaciones FASTAPI.
Edge-TTS : Biblioteca de texto a voz de Microsoft Azure Edge.
Mutagen : Biblioteca para manejar metadatos de audio.
Almohada : Python Imaging Library (PIL) para el procesamiento de imágenes.
TRAFILATURA : Biblioteca para raspado web y extracción de texto.
Solicitudes : Biblioteca HTTP para enviar solicitudes.
BeautifulSoup : Biblioteca para analizar documentos HTML y XML.
PDFMiner : Biblioteca para extraer texto de documentos PDF.
Python-Dotenv : Biblioteca para administrar variables de entorno.
Periódico4K : Biblioteca para extraer artículos de sitios web de noticias.
Wikipedia : Biblioteca para extraer información de los artículos de Wikipedia.
Anexo : Biblioteca para tareas de programación. Se utiliza para programar la recuperación automática de noticias dos veces al día.
Y muchos más, pero planeo reducir un poco las dependencias al eliminar los despidos, etc.

Que contribuye

Bifurca el repositorio.

Crea una nueva rama:

git checkout -b feature/your-feature-name

Haga sus cambios y compromételos:
```
git commit -m ' Add some feature '
```

Empuja a la rama:

git push origin feature/your-feature-name

Envíe una solicitud de extracción.

Licencia

Este proyecto tiene licencia bajo la Licencia Apache Versión 2.0, enero de 2004, a excepción del código STYLETTS2, que tiene licencia bajo la licencia MIT. Los modelos pre-capacitados F5-TTS ABD STYLETTS2 están bajo su propia licencia.

Modelos pre-capacitados de STYLETTS2: antes de usar estos modelos previamente capacitados, usted acepta informar a los oyentes que las muestras del habla son sintetizadas por los modelos previamente capacitados, a menos que tenga el permiso para usar la voz que sintetiza. Es decir, usted acepta solo usar voces cuyos oradores otorgan el permiso para que su voz se clone, ya sea directamente o por licencia antes de hacer públicas voces sintetizadas, o debe anunciar públicamente que estas voces se sintetizan si no tiene el permiso para usar estas voces.

Hoja de ruta

La detección del idioma y la selección de voz basada en el lenguaje detectado (actualmente solo funciona para Edge-TTS).
Agregar soporte para el manejo de archivos PDF
Agregue soporte para el motor de texto a voz local (TTS) como Styletts2.
Agregue soporte para el procesamiento de texto basado en LLM como la transcripción de Podcast con LLMS local a través de Ollama o la API de OpenAI
Agregar soporte para F5-TTS
Agregue soporte para el subtítulos de imágenes automáticas utilizando modelos de visión locales o la API de OpenAI

Expresiones de gratitud

Me gustaría agradecer a los siguientes repositorios y autores por su inspiración y código:

F5 -TTS - ¡Actualmente el mejor modelo TTS de pesas abiertas!
Stylyetts2: un gran motor TTS de código abierto, y muy rápido si usa NVIDIA/CUDA
Pipertts: otro buen motor TTS local que también funciona en sistemas de baja especificación
Alwaysreddy - Gracias a estos chicos, tengo a Piper TTS trabajando en mi proyecto
RVC -Python - Para mejorar el discurso generado
Edge -TTS - El mejor motor TTS en línea gratuito

Expandir

Información adicional

Versión v0.1.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-21
tamaño 50.53MB
Proviene de Github

Aplicaciones relacionadas

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo