Unduh textbook_quality - Unduh Kode Sumber textbook

textbook_quality

Kode sumber lainnya

1.0.0

Unduh

Kualitas Buku Teks

Proyek ini menghasilkan data pretraining kualitas buku teks yang sangat panjang. Berikut contoh token 70m. Ini dapat menjalankan generasi secara paralel, melawan Openai, atau API Anda sendiri. Ini dapat menghasilkan topik dari awal, atau menggunakan satu set benih yang Anda berikan.

Generator menggunakan pengambilan untuk meningkatkan kualitas. Secara default, itu akan menggunakan Serapan untuk melakukan pengambilan, tetapi Anda juga dapat menggunakan Serpapi, atau menonaktifkan pengambilan.

Inti dapat diperluas, sehingga Anda dapat menambahkan adaptor Anda sendiri untuk terhubung ke API baru dan backends pengambilan.

Menginstal

Prasyarat

Python 3.9+ (idealnya 3.11)
Anda akan perlu dipasang postgres. Anda dapat menginstalnya dengan brew install postgres di mac.

Pengaturan

psql postgres -c "create database textbook;"
git clone https://github.com/VikParuchuri/textbook_quality.git
cd textbook_quality
poetry install
invoke migrate-dev

Konfigurasi

Pertama, buat file local.env di direktori root repo untuk menyimpan kunci rahasia Anda. Atau, Anda dapat mengatur kunci apa pun di bawah ini sebagai env var.

Anda dapat melihat semua nilai konfigurasi yang tersedia di app/settings.py .

Dengan openai dan pengambilan (kualitas tertinggi)

Tambahkan kunci openai Anda, seperti OPENAI_KEY=sk-xxxxxx
Tambahkan kunci Serapan Anda ( SERPLY_KEY="..." ) atau kunci Serpapi ( SERPAPI_KEY="..." ).
Tambahkan SEARCH_BACKEND=serply atau SEARCH_BACKEND=serpapi untuk menggunakan backend yang sesuai.

Secara default, ini akan menggunakan gpt-3.5 . Anda dapat menggunakan gpt-4 dengan mengatur Env vars LLM_TYPE , LLM_INSTRUCT_TYPE ke gpt-4 . Anda mungkin bisa lolos dengan pengaturan LLM_EXTENDED_TYPE ke gpt-4 juga, tetapi Anda mungkin membutuhkan konteks 8K lebih dari 8k.

Dengan VLLM atau API dan pengambilan yang kompatibel dengan openai lainnya

Atur OPENAI_KEY ke nilai kunci API Anda, atau nilai dummy.
Setel OPENAI_BASE_URL ke URL API Anda (seperti https://vllm-api.com/v1)
Atur pengaturan LLM_TYPE , LLM_INSTRUCT_TYPE , dan LLM_EXTENDED_TYPE ke nama model Anda (seperti llama )
Atur nama model dan token maks di pengaturan LLM_TYPES .
Ikuti instruksi di atas untuk pengaturan pengambilan.

Generator idealnya membutuhkan panjang konteks hingga 16k , tetapi Anda bisa lolos dengan 12k jika perlu. Jika Anda telah finetuned model Anda sendiri untuk gen buku teks (berdasarkan prompt di -cache dalam repo ini), Anda dapat menggunakan pengaturan FINETUNED dan INCLUDE_EXAMPLES untuk mengurangi penggunaan token.

Tanpa pengambilan

Setel SEARCH_BACKEND=none

Penggunaan

Ada tiga skrip utama dalam repo. Anda dapat menjalankan setiap skrip pada output yang sebelumnya. Semua output akan muncul secara default dalam app/data , yang merupakan DATA_DIR yang ditentukan dalam pengaturan.

Menghasilkan topik dari awal

Anda memasukkan subjek, file yang ingin Anda simpan topik, dan jumlah iterasi. Topiknya akan diuplikasi.

Contoh Penggunaan:

python topic_generator.py "computer science with python" python_cs_titles.json --iterations 50

Menambah topik dari biji

Ambil file dengan biji yang ada (dalam daftar JSON datar), dan ungkapkan. Anda dapat meneruskan file output dari generator topik sebagai file benih, atau menggunakan benih Anda sendiri. Domain adalah bendera opsional untuk membatasi topik dalam domain.

Ini juga akan mendedikasikan topik secara semantik.

Contoh Penggunaan:

python topic_augmentor.py python_titles.json python_topics.json --domain python

Menghasilkan buku teks

Dari judul

Ini akan mengambil file dengan daftar topik JSON datar, dan menghasilkan satu buku teks per topik. Bendera pekerja mengontrol jumlah generasi paralel. Turunkan jika Anda mencapai batas tingkat.

Contoh Penggunaan:

python book_generator.py topics.json books.jsonl --workers 5

Anda juga dapat mengganti pengaturan dengan variabel lingkungan (alih -alih menggunakan local.env ). Contoh ini akan menggunakan API VLLM alih -alih Openai:

LLM_TYPE=llama LLM_INSTRUCT_TYPE=llama LLM_EXTENDED_TYPE=llama OPENAI_KEY="llama" OPENAI_BASE_URL="https://vllm-api.com/v1" python book_generator.py topics.json books.jsonl --workers 10

Anda dapat melihat semua opsi dengan menjalankan python book_generator.py --help .

Perhatikan bahwa kursus di -cache secara default, jadi meregenerasi kursus dengan nama yang sama dua kali tidak akan mencapai API lagi. Cache khusus untuk setiap model dan setiap topik. Anda dapat melewatkan cache dengan menggunakan opsi --revision untuk menentukan nomor revisi untuk kursus.

Dari garis besar

Anda juga dapat menghasilkan buku dari garis besar yang ada dengan membuat file JSONL dengan bidang -bidang berikut:

topic - Topik/Judul Buku
outline - Garis besar buku, sebagai daftar JSON datar. Ini harus dalam format tertentu, lihat "Daftar Isi Bersih" di bawah ini.
queries - hingga 2 kueri pencarian untuk digunakan untuk pengambilan. Jika Anda tidak ingin menggunakan pengambilan, atur ini ke daftar kosong.

Bersihkan Meja Isi

Ini akan mengambil file JSONL dengan daftar konten dan judul yang ada, dan memprosesnya ke dalam format yang benar untuk pembuatan buku.

Contoh Penggunaan:

python toc_cleaner.py toc.jsonl clean_toc.jsonl

toc.jsonl harus memiliki bidang berikut di setiap baris:

title - Judul Buku
toc - String yang berisi Daftar Isi. Ini bisa diformat buruk

Memperpanjang

Anda dapat memperpanjang ini untuk menambahkan adaptor LLM baru, metode pengambilan, atau tugas. PR sangat disambut.

Adaptor LLM berada di app/llm/adaptors
Metode pengambilan ada dalam app/services/adaptors . Anda mungkin juga perlu menyesuaikan pengaturan dalam services/generators/pdf.py
Tugas ada di app/llm/generators

Debugging

Secara default, banyak pengecualian akan disembunyikan untuk menghindari kebisingan konsol. Gunakan DEBUG=true untuk menampilkannya, seperti ini:

DEBUG=true python book_generator.py python_topics.json books.jsonl --max 5 --workers 5

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-02-25
ukuran 196.18KB
Berasal dari Github

Aplikasi Terkait

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
DuelVox: Kualitas Maks

2022-08-04
Mesin analisis data Lihua versi gratis 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Kode sumber lainnya

1.0.0
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Kode sumber lainnya

1.0.0

Informasi Terkait Semua