Advanced Chain of Thought (COT) การให้เหตุผล API ด้วยการเรียนรู้เสริมแรง (RL)

Fragaria เป็นห่วงโซ่ความคิดที่ทรงพลังและยืดหยุ่น (COT) การใช้เหตุผล API ที่ใช้ประโยชน์จากผู้ให้บริการรูปแบบภาษาต่าง ๆ (LLM) และรวมเทคนิคการเรียนรู้เสริมแรง (RL) เพื่อแก้ปัญหาที่ซับซ้อนและตอบคำถามที่ซับซ้อน Fragaria ได้รับการตั้งชื่อตามประเภทพฤกษศาสตร์ของสตรอเบอร์รี่ Fragaria แสดงความเคารพต่อผู้มีชื่อเสียง "มีกี่คนในสตรอเบอร์รี่" ปัญหาเป็นสัญลักษณ์ของความสามารถในการจัดการทั้งการสืบค้นที่เรียบง่ายและซับซ้อนด้วยกลเม็ดเด็ดพรายที่เท่ากัน
โคลนที่เก็บ:
git clone https://github.com/terraprompt/fragaria.git
cd fragaria
สร้างสภาพแวดล้อมเสมือนจริง (เป็นทางเลือก แต่แนะนำ):
python -m venv venv
source venv/bin/activate # On Windows, use `venvScriptsactivate`
ติดตั้งการพึ่งพาที่ต้องการ:
pip install -r requirements.txt
คัดลอกไฟล์ config.yaml.example ไปที่ config.yaml :
cp config.yaml.example config.yaml
เปิด config.yaml และอัปเดตการตั้งค่าต่อไปนี้:
llm_provider ที่คุณต้องการ (OpenAI, GROQ หรือร่วมกัน)เริ่มเซิร์ฟเวอร์ Fragaria API:
python main.py
API จะพร้อมใช้งานที่ http://localhost:8000 (หรือโฮสต์/พอร์ตที่ระบุในการกำหนดค่าของคุณ)
ตอนนี้คุณสามารถส่งคำขอโพสต์ไปที่ http://localhost:8000/v1/chat/completions เพื่อใช้ความสามารถในการให้เหตุผลด้านความคิด
Fragaria จัดทำเอกสาร API ที่ครอบคลุม:
http://localhost:8000/docshttp://localhost:8000/redochttp://localhost:8000/openapi.json นี่คือปัญหาตัวอย่างที่คุณสามารถแก้ไขได้โดยใช้ Fragaria:
ปัญหาสตรอเบอร์รี่คลาสสิก:
{
"model" : " faragia-dev " ,
"messages" : [
{ "role" : " user " , "content" : " How many 'r's in strawberry? " }
]
}ปริศนาที่เกี่ยวข้องกับอายุที่ซับซ้อนมากขึ้น:
{
"model" : " faragia-dev " ,
"messages" : [
{ "role" : " user " , "content" : " A princess is as old as the prince will be when the princess is twice as old as the prince was when the princess's age was half the sum of their present age. What is the age of prince and princess? Provide all solutions to that question. " }
]
} ในการแก้ปัญหาเหล่านี้ให้ส่งคำขอโพสต์ไปที่ /v1/chat/completions ด้วย payloads JSON ข้างต้น
Fragaria ใช้โซ่การให้เหตุผล (COT) ที่ซับซ้อนซึ่งได้รับการปรับปรุงโดยการเรียนรู้การเสริมแรง:
กระบวนการปรับปรุง RL นี้ช่วยให้ Fragaria ไม่เพียง แต่จัดการกับปัญหาที่หลากหลาย แต่ยังรวมถึงการเรียนรู้และปรับกลยุทธ์เมื่อเวลาผ่านไปและมีประสิทธิภาพมากขึ้นในการแก้ปัญหาทั้งที่คุ้นเคยและปัญหาใหม่
เรายินดีต้อนรับการมีส่วนร่วมของ Fragaria! โปรดทำตามขั้นตอนเหล่านี้เพื่อมีส่วนร่วม:
โปรดตรวจสอบให้แน่ใจว่ารหัสของคุณเป็นไปตามมาตรฐานการเข้ารหัสของโครงการและรวมถึงการทดสอบคุณสมบัติใหม่
Fragaria เปิดตัวภายใต้ใบอนุญาต MIT ดูไฟล์ใบอนุญาตสำหรับรายละเอียด
หากคุณใช้ Fragaria ในการวิจัยของคุณหรือต้องการอ้างถึงในสิ่งพิมพ์ของคุณโปรดใช้รายการ BibTex ต่อไปนี้:
@software { fragaria2024 ,
author = { {Dipankar Sarkar} } ,
title = { Fragaria: Advanced Chain of Thought Reasoning API with Reinforcement Learning } ,
year = 2024 ,
publisher = { GitHub } ,
journal = { GitHub repository } ,
howpublished = { url{https://github.com/terraprompt/fragaria} } ,
}สำหรับเอกสารทางวิชาการคุณสามารถอ้างถึง Fragaria เป็น:
Dipankar Sarkar (2024) Fragaria: API API การให้เหตุผลด้านความคิดขั้นสูงพร้อมการเรียนรู้การเสริมแรง [ซอฟต์แวร์คอมพิวเตอร์] https://github.com/terraprompt/fragaria
Fragaria ได้รับการดูแลโดยทีม Terraprompt สำหรับคำถามหรือการสนับสนุนใด ๆ โปรดเปิดปัญหาเกี่ยวกับที่เก็บ GitHub