Advanced Chain of Thought (COT) API dengan Pembelajaran Penguatan (RL)

Fragaria adalah rantai pemikiran yang kuat dan fleksibel (COT) API yang memanfaatkan berbagai penyedia Model Bahasa (LLM) dan menggabungkan teknik pembelajaran penguatan (RL) untuk memecahkan masalah yang kompleks dan menjawab pertanyaan rumit. Dinamai setelah genus botani stroberi, Fragaria memberi penghormatan kepada yang terkenal "berapa banyak di stroberi?" Masalah, melambangkan kemampuannya untuk menangani pertanyaan sederhana dan kompleks dengan kemahiran yang sama.
Klon Repositori:
git clone https://github.com/terraprompt/fragaria.git
cd fragaria
Buat lingkungan virtual (opsional tetapi direkomendasikan):
python -m venv venv
source venv/bin/activate # On Windows, use `venvScriptsactivate`
Instal dependensi yang diperlukan:
pip install -r requirements.txt
Salin file config.yaml.example ke config.yaml :
cp config.yaml.example config.yaml
Buka config.yaml dan perbarui pengaturan berikut:
llm_provider pilihan Anda (openai, groq, atau bersama -sama)Mulai server API Fragaria:
python main.py
API akan tersedia di http://localhost:8000 (atau host/port yang ditentukan dalam konfigurasi Anda).
Anda sekarang dapat mengirim permintaan pos ke http://localhost:8000/v1/chat/completions untuk menggunakan rantai kemampuan penalaran pemikiran.
Fragaria menyediakan dokumentasi API yang komprehensif:
http://localhost:8000/docshttp://localhost:8000/redochttp://localhost:8000/openapi.json Berikut adalah beberapa masalah sampel yang dapat Anda selesaikan menggunakan Fragaria:
Masalah stroberi klasik:
{
"model" : " faragia-dev " ,
"messages" : [
{ "role" : " user " , "content" : " How many 'r's in strawberry? " }
]
}Teka-teki terkait usia yang lebih kompleks:
{
"model" : " faragia-dev " ,
"messages" : [
{ "role" : " user " , "content" : " A princess is as old as the prince will be when the princess is twice as old as the prince was when the princess's age was half the sum of their present age. What is the age of prince and princess? Provide all solutions to that question. " }
]
} Untuk menyelesaikan masalah ini, kirim permintaan posting ke /v1/chat/completions dengan muatan JSON di atas.
Fragaria menggunakan proses penalaran rantai pemikiran (COT) yang canggih ditingkatkan dengan pembelajaran penguatan:
Proses yang ditingkatkan RL ini memungkinkan Fragaria tidak hanya menangani berbagai masalah tetapi juga untuk belajar dan menyesuaikan strategi dari waktu ke waktu, menjadi semakin efisien dalam menyelesaikan jenis masalah yang akrab dan baru.
Kami menyambut kontribusi untuk Fragaria! Silakan ikuti langkah -langkah ini untuk berkontribusi:
Harap pastikan kode Anda mematuhi standar pengkodean proyek dan sertakan tes untuk fitur baru.
Fragaria dirilis di bawah lisensi MIT. Lihat file lisensi untuk detailnya.
Jika Anda menggunakan Fragaria dalam penelitian Anda atau ingin merujuknya dalam publikasi Anda, silakan gunakan entri Bibtex berikut:
@software { fragaria2024 ,
author = { {Dipankar Sarkar} } ,
title = { Fragaria: Advanced Chain of Thought Reasoning API with Reinforcement Learning } ,
year = 2024 ,
publisher = { GitHub } ,
journal = { GitHub repository } ,
howpublished = { url{https://github.com/terraprompt/fragaria} } ,
}Untuk makalah akademik, Anda dapat mengutip Fragaria sebagai:
Dipankar Sarkar. (2024). Fragaria: API penalaran rantai pemikiran canggih dengan pembelajaran penguatan [perangkat lunak komputer]. https://github.com/terraprompt/fragaria
Fragaria dikelola oleh tim Terraprompt. Untuk pertanyaan atau dukungan, buka masalah di repositori GitHub.