READ2ME Download - READ2ME download de código fonte

READ2ME

Código-Fonte de IA

v0.1.0

Baixar

Read2me

Read2me Banner

Visão geral

O READ2ME é um aplicativo FASTAPI que busca conteúdo dos URLs fornecidos, processa o texto, converte-o em fala usando o TTS de borda do Microsoft Azure ou com os modelos TTS locais F5-TTS, Styletts2 ou Piper TTS e tags os arquivos MP3 resultantes com metadados. Você pode transformar o texto completo em áudio ou ter um LLM converter o texto de semente em um podcast. Atualmente, o Ollama e qualquer API compatível com o OpenAI são suportados. Você pode instalar a extensão de cromo fornecida em qualquer navegador baseado em cromo (por exemplo, Chrome ou Microsoft Edge) para enviar URLs atuais ou qualquer texto ao sever, adicionar fontes e palavras-chave para buscar automática.

Atualmente, é uma versão beta, mas pretendo estendê -la para suportar outros tipos de conteúdo (por exemplo, Epub) no futuro e fornecer suporte mais robusto a outros idiomas que não o inglês. Atualmente, ao usar o Azure Edge TTS padrão, ele já suporta outros idiomas e tenta automaticamente o texto, mas a qualidade pode variar dependendo do idioma.

Características

Busca e processa o conteúdo dos URLs HTML e o salva como um arquivo de marcação.
Converte o texto em fala usando TTS de borda do Microsoft Azure (atualmente selecionando aleatoriamente das vozes multilíngues disponíveis para lidar facilmente com vários idiomas).
Tags arquivos mp3 com metadados, incluindo o título, o autor e a data da publicação, se disponível.
Adiciona uma imagem de capa com a data atual aos arquivos MP3.
Para URLs da Wikipedia, usa a Wikipedia Python Library para extrair o conteúdo do artigo
Recuperação automática de novos artigos de fontes especificadas em intervalos definidos (atualmente codificados com duas vezes por dia às 5h e 17h, horário local). Fontes e palavras -chave podem ser especificadas por meio de arquivos de texto.
Transforme qualquer texto de semente (URL ou texto inserido manualmente) em um podcast (atualmente trabalha com Edge-TTS e F5)
Extensão do Chrome Disponível no Chrome WebStore: Read2Me Browser Companion. Se você preferir a instalação da extensão da fonte, ela também estará disponível neste repositório.

Requisitos

Python 3.10 ou superior
Dependências listadas no requirements.txt para borda-tts, requisitos separados para F5 e Styletts2.

Instalação

Instalação do Python

Clone o repositório:

git clone https://github.com/WismutHansen/READ2ME.git
cd read2me

Crie e ativar um ambiente virtual:

python -m venv .venv
source .venv/bin/activate   # On Windows: .venvScriptsactivate

Ou se você gosta de usar o UV para gerenciamento de pacotes:

uv venv
source .venv/bin/activate # On Windows: .venvScriptsactivate

Instale dependências:

pip install -r requirements.txt (or uv pip install -r requirements.txt)

Para o modelo Local StyLetts2 Text-to-Speech, por favor, instale também as dependências adicionais:

pip install -r requirements_stts2.txt (or uv pip install -r requirements_stts2.txt)

Para o modelo F5-TTS, instale também as dependências adicionais:

pip install -r requirements_F5.txt (or uv pip install -r requirements_F5.txt)

Instale o dramaturgo

playwright install

Se estiver usando UV, por favor, instale também:

uv pip install pip

Para suporte local de Pipertts:

python3 -m TTS.piper_tts.instalpipertts (MacOS and Linux) or python -m TTS.piper_tts.instalpipertts (on Windows)

NOTA: O FFMPEG é necessário ao usar o Styletts2 ou o PipeRts para converter arquivos WAV em MP3. Os Styletts também exigem que o Espeak-NG seja instalado no seu sistema.

Configurar variáveis de ambiente:

Renomeie .env.example arquivo no diretor raiz para .env e edite o conteúdo à sua preferência:

OUTPUT_DIR=Output # Directory to store output files
SOURCES_FILE=sources.json # File containing sources to retrieve articles from twice a day
IMG_PATH=front.jpg # Path to image file to use as cover
OLLAMA_BASE_URL=http://localhost:11434    # Standard Port for Ollama
OPENAI_BASE_URL=http://localhost:11434/v1 # Example for Ollama Open AI compatible endpoint
OPENAI_API_KEY=skxxxxxx                   # Your OpenAI API Key in case of using the official OpenAI API
MODEL_NAME=llama3.2:latest
LLM_ENGINE=Ollama # Valid Options: Ollama, OpenAI

Você pode usar o Ollama ou qualquer API compatível com o OpenAI para geração de scripts de título e podcast (função de resumo também em breve)

Instalação do Docker

Clone o repositório e mude para ele:

git clone https://github.com/WismutHansen/READ2ME.git && cd read2me

Copie o .env.exemplo para .env e edite o conteúdo: importante: Ao usar um LLM-Engine local por exemplo, o URL precisa seguir este formato "host.docker.internal: 11434" (para ollama) ou "host.docker.internal: 1234" (para lmstudio)
Construa o recipiente do docker
```
 docker build -t read2me . 
```
Nota: o tempo de construção leva muito tempo, seja paciente
Execute o contêiner do Docker
```
 docker run -p 7777:7777 -d read2me
```
Nota: o tempo de construção leva muito tempo, seja paciente

Uso

Prepare o arquivo Variáveis do ambiente (.env):

Copie e renomeie .env.example para .env . Edite o conteúdo deste arquivo como desejar, especificando o diretório de saída, o arquivo de tarefas e o caminho da imagem a ser usado para a capa do arquivo MP3, bem como as fontes e o arquivo de palavras -chave.

Execute o aplicativo FASTAPI:

uvicorn main:app --host 0.0.0.0 --port 7777

Ou, se você estiver conectado a um servidor Linux, por exemplo, via SSH e deseja manter o aplicativo em execução após fechar sua sessão

nohup uvicorn main:app --host 0.0.0.0 --port 7777 &

Isso gravará toda a saída de comando em um arquivo chamado nohup.out no seu diretório de trabalho atual.

Adicione URLs para processamento:
Envie uma solicitação de postagem para http://localhost:7777/v1/url/full com um corpo JSON contendo o URL:
```
{
  "url" : " https://example.com/article "
}
```
Você pode usar curl ou qualquer cliente da API como Postman para enviar esta solicitação como esta:
```
curl -X POST http://localhost:7777/v1/url/full/ 
  -H " Content-Type: application/json " 
  -d ' {"url": "https://example.com/article"} '
  -d ' {"tts-engine": "edge"} '
```
O repositório também contém uma extensão de cromo que você pode instalar em qualquer navegador baseado em cromo (por exemplo, Google Chrome) quando as configurações do desenvolvedor são ativadas.
URLs de processamento:
O aplicativo verifica periodicamente o arquivo tasks.json para novos trabalhos processarem. Ele busca o conteúdo de um determinado URL, extrai texto, o converte em fala e salva os arquivos MP3 resultantes com metadados apropriados.
Especifique fontes e palavras -chave para recuperação automática:

Crie um arquivo chamado sources.json em seu diretório de trabalho atual com URLs para sites que você deseja monitorar para novos artigos. Você também pode definir palavras-chave globais e palavras-chave por fonte a serem usadas como filtros para recuperação automática. Se você definir "*" para uma fonte, todos os novos artigos serão recuperados. Aqui está uma estrutura de exemplo:

{
  "global_keywords" : [
    " globalkeyword1 " ,
    " globalkeyword2 "
  ],
  "sources" : [
    {
      "url" : " https://example.com " ,
      "keywords" : [ " keyword1 " , " keyword2 " ]
    },
    {
      "url" : " https://example2.com " ,
      "keywords" : [ " * " ]
    }
  ]
}

A localização de ambos os arquivos é configurável no arquivo .env.

Front-end

Para usar o Frontend Next.js, verifique se você tem o Node.js instalado no seu sistema. Nota: Frontend está atualmente em um estágio experimental inicial, então espere muitos bugs: primeiro, mude para o diretório de front -end

 cd frontend

Em seguida, instale as dependências de nó necessárias:

npm install

Então, para iniciar a corrida do front -end:

npm run dev

Você pode acessar o front -end em http: // localhost: 3000

Endpoints da API

Post/v1/url/completo

Adiciona um URL à lista de processamento.

Solicitar corpo:

{
  "url" : " https://example.com/article " ,
  "tts-engine" : " edge "
}

Resposta:

{
  "message" : " URL added to the processing list "
}

Post/v1/url/podcast
Post/v1/text/completo
Post/v1/texto/podcast

Estrutura de arquivo

main.py : o principal arquivo de aplicativo FASTAPI.
requisitos.txt : Lista de dependências.
.env : arquivo de variáveis de ambiente.
banco de dados/: diretório que contém o banco de dados SQLite e todo o código relacionado ao banco de dados
TTS/: Diretório que contém o código para todos os engenheiros TTS
Utils/ : diretório com funções auxiliares para manuseio de tarefas, extração de texto etc.
Saída/ : diretório em que os arquivos de saída (MP3 e MD) são salvos, a menos que você especifique um diretório diferente no arquivo .env.

Dependências

FASTAPI : estrutura da web para criar APIs.
Uvicorn : ASGI Server Implementation para servir aplicativos FASTAPI.
Edge-TTS : Biblioteca de texto para fala do Microsoft Azure.
Mutagênico : Biblioteca para lidar com metadados de áudio.
Almofado : Python Imaging Library (PIL) para processamento de imagens.
Trafilatura : biblioteca para raspagem da web e extração de texto.
Solicitações : Biblioteca HTTP para enviar solicitações.
BONAGEMSOUP : Biblioteca para analisar documentos HTML e XML.
PDFMiner : Biblioteca para extrair texto de documentos PDF.
Python-dotenv : biblioteca para gerenciamento de variáveis de ambiente.
Newspaper4K : Biblioteca para extrair artigos de sites de notícias.
Wikipedia : Biblioteca para extrair informações dos artigos da Wikipedia.
Cronograma : Biblioteca para tarefas de agendamento. Usado para agendar uma recuperação automática de notícias duas vezes por dia.
E muito mais, mas pretendo reduzir um pouco as dependências, removendo redundâncias etc.

Contribuindo

Fork o repositório.

Crie uma nova filial:

git checkout -b feature/your-feature-name

Faça suas alterações e cometê -las:
```
git commit -m ' Add some feature '
```

Empurre para o ramo:

git push origin feature/your-feature-name

Envie uma solicitação de tração.

Licença

Este projeto está licenciado no Apache License versão 2.0, janeiro de 2004, exceto o código Styletts2, licenciado sob a licença do MIT. Os modelos F5-TTS ABD Styletts2 pré-treinados estão sob sua própria licença.

Modelos pré-treinados Styletts2: Antes de usar esses modelos pré-treinados, você concorda em informar aos ouvintes que as amostras de fala são sintetizadas pelos modelos pré-treinados, a menos que você tenha permissão para usar a voz que sintetiza. Ou seja, você concorda em usar apenas vozes cujos alto -falantes concedem permissão para ter sua voz clonada, diretamente ou por licença antes de tornar públicas vozes sintetizadas, ou você deve anunciar publicamente que essas vozes são sintetizadas se você não tiver permissão para usar essas vozes.

Roteiro

Detecção de idiomas e seleção de voz com base no idioma detectado (atualmente funciona apenas para Edge-TTS).
Adicione suporte para lidar com arquivos PDF
Adicione suporte ao motor local de texto em fala (TTS) como Styletts2.
Adicione suporte ao processamento de texto baseado em LLM, como o Podcast Transcript com LLMs locais através do Ollama ou da API Openai
Adicione suporte para F5-TTS
Adicione suporte para legendas automáticas de imagem usando modelos de visão local ou a API OpenAI

Agradecimentos

Gostaria de agradecer aos seguintes repositórios e autores por sua inspiração e código:

F5 -TTS - Atualmente, o melhor modelo TTS de pesos abertos!
Stylyetts2 - Um ótimo motor TTS de código aberto e muito rápido se estiver usando NVIDIA/CUDA
PIPERTTS - Outro bom mecanismo TTS local que também funciona em sistemas de baixa especificação
Sempre Reddy - graças a esses caras, eu consegui o Piper TTS trabalhando em meu projeto
RVC -Python - para melhorar a fala gerada
Edge -tts - Melhor mecanismo TTS online gratuito

Expandir

Informações adicionais

Versão v0.1.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-21
tamanho 50.53MB
Vindo de Github

Aplicativos Relacionados

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos