reading for listeners Descargar - Descargar el código fuente de reading for listeners

reading for listeners

Código Fuente de IA

v0.0.4post2 Audio Distortion Hotfix

Descargar

Lectura para oyentes (R4L)

¡Tengo problemas para leer PDF y escucharlos me ayuda enormemente! Así que estoy trabajando en una aplicación fácil de usar que se le puede dar un PDF (o archivo TXT) y escupir un archivo MP3. En el futuro, este será un servidor divertido que hará el trabajo duro, pero por ahora, solo será un proyecto Python/Bash. Este es un pequeño proyecto personal, por lo que no habrá actualizaciones regulares per se , pero cuando tenga tiempo, presionaré lo que tengo.

Características

Mejora holística de OCR

El mayor problema con los PDF es que no tienen texto dentro del documento (son esencialmente imágenes) o el texto existente (generalmente el resultado de OCR) es de mala calidad. El OCR a menudo es bastante malo en los PDF que me dan, por lo que uso Bert (un modelo de lenguaje enmascarado) para mejorar los resultados del correcto de calificación. En el futuro, esto será reemplazado por el Trocr de Microsoft.

TTS con inflexión

Si OCR fuera el único problema, solo usaría la salida de OCRMYPDF para espeak y lo haríamos. Desafortunadamente, Espeak suena terrible. No hay inflexión y es realmente difícil prestarle atención por largos períodos de tiempo. Ahí es donde el TTS de Coqui.ai llega al rescate, haciendo que las lecturas de un horas de duración tengan soportables.

Siempre foss

Las otras soluciones a este problema son de código cerrado y cuestan mucho dinero. Esto es gratis.

UI simple

Eventualmente, este proyecto tendrá una interfaz de usuario web que requerirá muy poca entrada del usuario final. Después de todo, este es un software de accesibilidad: sería extraño si fuera difícil de usar. Desafortunadamente, por ahora solo tengo una CLI que solo se ha probado en Linux. No es lo mejor, pero tengo que comenzar en alguna parte.

Instalar

Windows (WIP)

La forma "más fácil" de hacerlo es instalando WSL con Ubuntu y siga las instrucciones de Ubuntu/Debian.

Si eres elegante y sabes cómo Python en Windows, ¡dime cómo va y cómo lo hiciste!

Nota: Desafortunadamente, es difícil configurar cosas de GPU para WSL, e incluso entonces solo funciona realmente para las tarjetas CUDA (NVIDIA), que no tengo forma de probar a partir de ahora (no es que pueda probar cualquier cosa de GPU ahora, pero eso está más allá del punto).

Mac (WIP)

Tengo que decir que no tengo idea de cómo obtener todas las dependencias (ver Ubuntu/Debian) en Mac. Una mirada superficial dice que brew o port deberían poder obtener la mayoría de ellos, pero no tengo idea de su disponibilidad. Si tienes una Mac y descubres esto, ¡hazme saber cómo lo hiciste!

Ubuntu/Debian (probado)

sudo apt install -y python3 python3-venv espeak ffmpeg tesseract-ocr-all python3-dev libenchant-dev libpoppler-cpp-dev pkg-config libavcodec libavtools ghostscript poppler-utils

Hacer y activar un entorno virtual, obtener pytorch, luego ejecutar

pip install reading4listeners

Y estás listo para ejecutar r4l (ver a continuación para obtener información de uso)

Instalar desde la fuente (Debian)

En Debian, corre

sudo apt install -y python3 python3-venv espeak ffmpeg tesseract-ocr-all python3-dev libenchant-dev libpoppler-cpp-dev pkg-config libavcodec libavtools ghostscript poppler-utils

git clone https://github.com/CypherousSkies/pdf-to-speech

cd pdf-to-speech

python3 -m venv venv

souce venv/bin/activate

pip install -U pip setuptools wheel cython

conseguir pytorch

python setup.py develop

Toma ~ 2-3GB de espacio en disco para instalar

Uso

r4l [--in_path in/] [--out_path out/] [--lang en] Ejecuta el conjunto de escaneo y corrección en todos los archivos compatibles en el directorio in/ y genera archivos mp3 a out/ utilizando el en (paréntesis cuadrados que denotan parámetros opcionales con valores predeterminados).

Ejecutar r4l --list_langs para enumerar los idiomas compatibles

~~ Este programa usa mucha memoria, por lo que aconsejaría a expandir su tamaño de intercambio en ~ 10GB (para el uso de Debian fixswap.sh ) ~~ (esto debería solucionarse ahora, pero si se queda sin memoria/se bloquea al azar, aumente el tamaño de swap)

Puntos de referencia

En mi configuración actual (4 núcleos Intel i7 8th Gen, no GPU, Debian 10, 5GB RAM+Swap de 7GB), la configuración en inglés lee alrededor de 440 palabras/min (n = 21, r^2 = 0.97) en un archivo de audio de 175 palabras/min. Entonces, R4L tarda ~ 11.4 minutos en leer un archivo de 5000 palabras, que tomará ~ 28.5 minutos para escuchar a IRL.

Desafortunadamente, no puedo acelerarlo mucho más allá de esto para los sistemas solo de CPU. El principal punto de conflicto fue que el acceso a archivos es lento, pero con una mayor conciencia de RAM, la desaceleración principal es Bert y TTS, que están diseñadas para funcionar rápidamente en máquinas G/TPU.

Debajo del capó

En un alto nivel, así es como funciona esto:

input.pdf -> ocrmypdf (GhostScript -> Unpray -> tesseract -oCR) -> preprocessing (regex) -> OCR corrección (bert) -> postprocesamiento (regex) -> text to speech (coqui.ai tts) -> wav a mp3 (pydub) -> out.mp3

Trabajo futuro

Es casi seguro que necesitaré ajustar a Trocr/Bert y TTS para lidiar mejor con los textos que me interesan cuando obtenga acceso a una plataforma ML, pero hasta entonces, seguiré usando los modelos estándar. Esperemos que todo esto pueda ser controlado por una interfaz de usuario web agradable y simple y se ejecuta en un servidor para uso público. También me gustaría empaquetar esto en un ejecutable que requiere un conocimiento técnico mínimo para usar y mantener, pero ese es un objetivo lejano.

Expandir

Información adicional

Versión v0.0.4post2 Audio Distortion Hotfix
Tipo Código Fuente de IA
Fecha de actualización 2025-08-25
tamaño 40.64KB
Proviene de Github

Aplicaciones relacionadas

joder por

2024-06-19
WNPM para Windows

2009-06-26
Servidor ZLPMS para IIS

2009-06-23
Flashgot para Firefox

2009-06-22
iTunes para Windows

2009-06-03
Ajax para tontos

2009-05-23

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo