ดาวน์โหลด textbook_quality - textbook_quality ซอร์สโค้ดดาวน์โหลดดาวน์โหลด

textbook_quality

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

คุณภาพตำราเรียน

โครงการนี้สร้างข้อมูลการเตรียมการที่มีคุณภาพของตำราเรียนยาวมาก นี่คือตัวอย่างโทเค็น 70m มันสามารถเรียกใช้รุ่นเดียวกันกับ OpenAI หรือ API ของคุณเอง มันสามารถสร้างหัวข้อตั้งแต่เริ่มต้นหรือใช้ชุดของเมล็ดที่คุณมีให้

เครื่องกำเนิดไฟฟ้าใช้การดึงเพื่อปรับปรุงคุณภาพ โดยค่าเริ่มต้นมันจะใช้ serply เพื่อทำการดึง แต่คุณสามารถใช้ serpapi หรือปิดใช้งานการดึงข้อมูล

แกนกลางสามารถขยายได้ดังนั้นคุณสามารถเพิ่มอะแดปเตอร์ของคุณเองเพื่อเชื่อมต่อกับ API ใหม่และแบ็กเอนด์ดึงข้อมูล

การติดตั้ง

ข้อกำหนดเบื้องต้น

Python 3.9+ (เป็นอุดมคติ 3.11)
คุณจะต้องติดตั้ง postgres คุณสามารถติดตั้งด้วย brew install postgres บน Mac

การตั้งค่า

psql postgres -c "create database textbook;"
git clone https://github.com/VikParuchuri/textbook_quality.git
cd textbook_quality
poetry install
invoke migrate-dev

การกำหนดค่า

ก่อนอื่นให้สร้างไฟล์ local.env ในไดเรกทอรีรูทของ repo เพื่อจัดเก็บกุญแจลับของคุณ หรือคุณสามารถตั้งค่าคีย์ใด ๆ ด้านล่างเป็น env var

คุณสามารถดูค่าการกำหนดค่าที่มีอยู่ทั้งหมดใน app/settings.py py

ด้วย OpenAI และ Retrieval (คุณภาพสูงสุด)

เพิ่มคีย์ openai ของคุณเช่น OPENAI_KEY=sk-xxxxxx
เพิ่มคีย์ serply ของคุณ ( SERPLY_KEY="..." ) หรือคีย์ serpapi ( SERPAPI_KEY="..." )
เพิ่ม SEARCH_BACKEND=serply หรือ SEARCH_BACKEND=serpapi เพื่อใช้แบ็กเอนด์ที่เหมาะสม

โดยค่าเริ่มต้นสิ่งนี้จะใช้ gpt-3.5 คุณสามารถใช้ gpt-4 ได้โดยการตั้งค่า env vars LLM_TYPE , LLM_INSTRUCT_TYPE เป็น gpt-4 คุณอาจสามารถหลีกหนีจากการตั้ง LLM_EXTENDED_TYPE เป็น gpt-4 ได้เช่นกัน แต่คุณอาจต้องใช้เวลานานกว่า 8K บริบท

ด้วย VLLM หรือ API ที่เข้ากันได้กับ OpenAI อื่น ๆ

ตั้ง OPENAI_KEY เป็นค่าของคีย์ API ของคุณหรือค่าจำลอง
ตั้งค่า OPENAI_BASE_URL เป็น URL ของ API ของคุณ (เช่น https://vllm-api.com/v1)
ตั้งค่า LLM_TYPE , LLM_INSTRUCT_TYPE และ LLM_EXTENDED_TYPE การตั้งค่าชื่อโมเดลของคุณ (เช่น llama )
ตั้งค่าชื่อรุ่นและโทเค็นสูงสุดในการตั้งค่า LLM_TYPES
ทำตามคำแนะนำด้านบนสำหรับการตั้งค่าการดึงข้อมูล

เครื่องกำเนิดไฟฟ้าต้องการความยาวบริบทสูงสุด 16k แต่คุณสามารถหนีไปได้ 12k หากคุณต้องการ หากคุณมีรูปแบบของคุณเองสำหรับ Gen ตำราเรียน (ขึ้นอยู่กับคำแนะนำที่แคชไว้ใน repo นี้) คุณสามารถใช้การตั้งค่า FINETUNED และ INCLUDE_EXAMPLES เพื่อลดการใช้โทเค็น

โดยไม่ต้องดึงข้อมูล

ตั้งค่า SEARCH_BACKEND=none

การใช้งาน

มีสามสคริปต์หลักใน repo คุณสามารถเรียกใช้แต่ละสคริปต์บนเอาต์พุตของสคริปต์ก่อนหน้า เอาต์พุตทั้งหมดจะปรากฏขึ้นตามค่าเริ่มต้นใน app/data ซึ่งเป็น DATA_DIR ที่ระบุในการตั้งค่า

สร้างหัวข้อตั้งแต่เริ่มต้น

คุณป้อนหัวเรื่องไฟล์ที่คุณต้องการบันทึกหัวข้อและจำนวนการวนซ้ำ หัวข้อจะถูกหักสำรอง

ตัวอย่างการใช้งาน:

python topic_generator.py "computer science with python" python_cs_titles.json --iterations 50

เพิ่มหัวข้อจากเมล็ดพันธุ์

ใช้ไฟล์ที่มีเมล็ดที่มีอยู่ (ในรายการ JSON แบน) และเพิ่มพวกเขา คุณสามารถส่งผ่านไฟล์เอาต์พุตจากตัวสร้างหัวข้อเป็นไฟล์เมล็ดพันธุ์หรือใช้เมล็ดพันธุ์ของคุณเอง โดเมนเป็นธงเสริมเพื่อ จำกัด หัวข้อภายในโดเมน

สิ่งนี้จะลดความซ้ำซ้อนในหัวข้อความหมาย

ตัวอย่างการใช้งาน:

python topic_augmentor.py python_titles.json python_topics.json --domain python

สร้างตำราเรียน

จากชื่อเรื่อง

สิ่งนี้จะใช้ไฟล์ที่มีรายการ JSON แบนของหัวข้อและสร้างตำราเรียนหนึ่งเล่มต่อหัวข้อ คนงานธงควบคุมจำนวนรุ่นขนาน ลดลงถ้าคุณกดขีด จำกัด อัตรา

ตัวอย่างการใช้งาน:

python book_generator.py topics.json books.jsonl --workers 5

นอกจากนี้คุณยังสามารถแทนที่การตั้งค่าด้วยตัวแปรสภาพแวดล้อม (แทนที่จะใช้ local.env ) ตัวอย่างนี้จะใช้ VLLM API แทน OpenAI:

LLM_TYPE=llama LLM_INSTRUCT_TYPE=llama LLM_EXTENDED_TYPE=llama OPENAI_KEY="llama" OPENAI_BASE_URL="https://vllm-api.com/v1" python book_generator.py topics.json books.jsonl --workers 10

คุณสามารถดูตัวเลือกทั้งหมดได้โดยใช้ python book_generator.py --help

โปรดทราบว่าหลักสูตรจะถูกแคชโดยค่าเริ่มต้นดังนั้นการสร้างหลักสูตรที่มีชื่อเดียวกันสองครั้งจะไม่เข้าสู่ API อีกครั้ง แคชมีความเฉพาะเจาะจงสำหรับแต่ละรุ่นและแต่ละหัวข้อ คุณสามารถข้ามแคชได้โดยใช้ตัวเลือก --revision เพื่อระบุหมายเลขการแก้ไขสำหรับหลักสูตร

จากโครงร่าง

นอกจากนี้คุณยังสามารถสร้างหนังสือจากโครงร่างที่มีอยู่โดยการสร้างไฟล์ JSONL ด้วยฟิลด์ต่อไปนี้:

topic - หัวข้อ/ชื่อเรื่องของหนังสือ
outline - โครงร่างของหนังสือเป็นรายการ JSON แบน สิ่งนี้จะต้องอยู่ในรูปแบบเฉพาะให้ดู "สารบัญ Clean Clean" ด้านล่าง
queries - คำค้นหาการค้นหาสูงสุด 2 รายการเพื่อใช้สำหรับการดึงข้อมูล หากคุณไม่ต้องการใช้การดึงข้อมูลให้ตั้งค่าเป็นรายการว่าง

ทำความสะอาดสารบัญ

สิ่งนี้จะใช้ในไฟล์ JSONL ที่มีสารบัญและชื่อเรื่องที่มีอยู่และประมวลผลเป็นรูปแบบที่ถูกต้องสำหรับการสร้างหนังสือ

ตัวอย่างการใช้งาน:

python toc_cleaner.py toc.jsonl clean_toc.jsonl

toc.jsonl ควรมีฟิลด์ต่อไปนี้ในแต่ละบรรทัด:

title - ชื่อเรื่องของหนังสือเล่มนี้
toc - สตริงที่มีสารบัญ ซึ่งสามารถจัดรูปแบบได้ไม่ดี

การขยาย

คุณสามารถขยายสิ่งนี้เพื่อเพิ่มในอะแดปเตอร์ LLM ใหม่วิธีการดึงข้อมูลหรืองาน PRS ยินดีเป็นอย่างยิ่ง

อะแดปเตอร์ LLM อยู่ใน app/llm/adaptors
วิธีการดึงข้อมูลอยู่ใน app/services/adaptors คุณอาจต้องปรับการตั้งค่าใน services/generators/pdf.py
งานอยู่ใน app/llm/generators

การดีบัก

โดยค่าเริ่มต้นข้อยกเว้นจำนวนมากจะถูกซ่อนไว้เพื่อหลีกเลี่ยงเสียงรบกวนของคอนโซล ใช้ DEBUG=true เพื่อแสดงเช่นนี้:

DEBUG=true python book_generator.py python_topics.json books.jsonl --max 5 --workers 5

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-02-25
ขนาด 196.18KB
มาจาก Github

แอปที่เกี่ยวข้อง

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
DuelVox: คุณภาพสูงสุด

2022-08-04
เครื่องมือวิเคราะห์ข้อมูล Lihua เวอร์ชันฟรี 3.0_search_navigation_collection_public comment_ranking_api

2022-06-28

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

ซอร์สโค้ดอื่น ๆ

1.0.0
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

ซอร์สโค้ดอื่น ๆ

1.0.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด