Download textbook_quality - Download de código fonte de textbook

textbook_quality

Outro código-fonte

1.0.0

Baixar

Qualidade do livro didático

Este projeto gera dados de pré -treinamento de qualidade de livros muito longos. Aqui está um exemplo de 70m de token. Ele pode executar gerações em paralelo, contra o OpenAI ou sua própria API. Ele pode gerar os tópicos do zero ou usar um conjunto de sementes que você fornece.

O gerador usa a recuperação para melhorar a qualidade. Por padrão, ele usará Serply para fazer a recuperação, mas você também pode usar Serpapi ou desativar a recuperação.

O núcleo é extensível, para que você possa adicionar seus próprios adaptadores para se conectar a novas APIs e back -ends de recuperação.

Instalação

Pré -requisitos

Python 3.9+ (idealmente 3.11)
Você precisará do PostGres instalado. Você pode instalá -lo com brew install postgres em um Mac.

Configurar

psql postgres -c "create database textbook;"
git clone https://github.com/VikParuchuri/textbook_quality.git
cd textbook_quality
poetry install
invoke migrate-dev

Configuração

Primeiro, crie um arquivo local.env no diretório raiz do repositório para armazenar suas chaves secretas. Como alternativa, você pode definir qualquer chave abaixo como um ENV VAR.

Você pode ver todos os valores de configuração disponíveis no app/settings.py .

Com o OpenAI e Recuperação (mais alta qualidade)

Adicione sua tecla OpenAI, como OPENAI_KEY=sk-xxxxxx
Adicione sua chave serplica ( SERPLY_KEY="..." ) ou key serpapi ( SERPAPI_KEY="..." ).
Adicione SEARCH_BACKEND=serply ou SEARCH_BACKEND=serpapi para usar o back -end apropriado.

Por padrão, isso usará gpt-3.5 . Você pode usar gpt-4 configurando o Env VARS LLM_TYPE , LLM_INSTRUCT_TYPE como gpt-4 . Você pode se safar da configuração LLM_EXTENDED_TYPE para gpt-4 , mas pode precisar de mais de 8k de contexto.

Com VLLM ou outra API compatível com o OpenAi e Recuperação

Defina OPENAI_KEY para o valor da sua chave da API, ou um valor fictício.
Defina OPENAI_BASE_URL para o URL da sua API (como https://vllm-api.com/v1)
Defina as configurações LLM_TYPE , LLM_INSTRUCT_TYPE e LLM_EXTENDED_TYPE para o nome do seu modelo (como llama )
Defina o nome do modelo e os tokens máximos na configuração LLM_TYPES .
Siga as instruções acima para a configuração de recuperação.

Idealmente, o gerador precisa de um comprimento de contexto de até 16k , mas você pode se safar com 12k , se necessário. Se você já finalizou seu próprio modelo para o livro didático (com base nas solicitações em cache neste repositório), você pode usar as configurações FINETUNED e INCLUDE_EXAMPLES para reduzir o uso do token.

Sem recuperação

Definir SEARCH_BACKEND=none

Uso

Existem três scripts principais no repositório. Você pode executar cada script na saída do anterior. Todas as saídas aparecerão por padrão no app/data , que é o DATA_DIR especificado nas configurações.

Gerar tópicos do zero

Você insere um assunto, um arquivo para o qual deseja salvar os tópicos e o número de iterações. Os tópicos serão desduplicados.

Exemplo de uso:

python topic_generator.py "computer science with python" python_cs_titles.json --iterations 50

Aumentar tópicos de sementes

Pegue um arquivo com sementes existentes (em uma lista JSON plana) e aumente -as. Você pode passar no arquivo de saída do gerador de tópicos como o arquivo de semente ou usar suas próprias sementes. O domínio é um sinalizador opcional para restringir os tópicos dentro de um domínio.

Isso também desduplicará os tópicos semanticamente.

Exemplo de uso:

python topic_augmentor.py python_titles.json python_topics.json --domain python

Gerar livros didáticos

De títulos

Isso levará um arquivo com uma lista JSON plana de tópicos e gerará um livro por tópico. A bandeira dos trabalhadores controla o número de gerações paralelas. Abaixe -o se você atingir os limites da taxa.

Exemplo de uso:

python book_generator.py topics.json books.jsonl --workers 5

Você também pode substituir as configurações de variáveis de ambiente (em vez de usar local.env ). Este exemplo usará uma API VLLM em vez do OpenAI:

LLM_TYPE=llama LLM_INSTRUCT_TYPE=llama LLM_EXTENDED_TYPE=llama OPENAI_KEY="llama" OPENAI_BASE_URL="https://vllm-api.com/v1" python book_generator.py topics.json books.jsonl --workers 10

Você pode ver todas as opções executando python book_generator.py --help .

Observe que os cursos são armazenados em cache por padrão, portanto, regenerar um curso com o mesmo nome duas vezes não atingirá a API novamente. O cache é específico para cada modelo e cada tópico. Você pode pular o cache usando a opção --revision para especificar um número de revisão para os cursos.

De contornos

Você também pode gerar um livro de um esboço existente criando um arquivo JSONL com os seguintes campos:

topic - O tópico/título do livro
outline - O esboço do livro, como uma lista JSON plana. Isso precisa estar em um formato específico, consulte "Índice limpo" abaixo.
queries - Até 2 consultas de pesquisa a serem usadas para recuperação. Se você não quiser usar a recuperação, defina -a como uma lista vazia.

Limpeza de índice

Isso receberá um arquivo JSONL com um índice e título existente e o processarão no formato correto para a geração de livros.

Exemplo de uso:

python toc_cleaner.py toc.jsonl clean_toc.jsonl

toc.jsonl deve ter os seguintes campos em cada linha:

title - O título do livro
toc - uma sequência que contém o índice. Isso pode ser mal formatado

Estendendo -se

Você pode estendê -lo para adicionar novos adaptadores LLM, métodos de recuperação ou tarefas. Os PRs são muito bem -vindos.

Os adaptadores LLM estão em app/llm/adaptors
Os métodos de recuperação estão em app/services/adaptors . Você também pode precisar ajustar as configurações em services/generators/pdf.py
Tarefas estão no app/llm/generators

Depuração

Por padrão, muitas exceções serão ocultas para evitar o ruído do console. Use DEBUG=true para exibi -los, assim:

DEBUG=true python book_generator.py python_topics.json books.jsonl --max 5 --workers 5

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-02-25
tamanho 196.18KB
Vindo de Github

Aplicativos Relacionados

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
DuelVox: qualidade máxima

2022-08-04
Mecanismo de análise de dados Lihua versão gratuita 3.0_search_navigation_collection_public parecer_ranking_api

2022-06-28

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Outro código-fonte

1.0.0
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Outro código-fonte

1.0.0

Informações Relacionadas Todos