open strawberry ดาวน์โหลด

open strawberry

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

สเตรว์เบอรี่แบบเปิด

การสาธิตเปิด-สตรอเบอร์รี่? โครงการ: https://huggingface.co/spaces/pseudotensor/open-strawberry

การพิสูจน์แนวคิดในการสร้างร่องรอยการใช้เหตุผลเพื่อสร้าง OpenAI O1 เวอร์ชันโอเพนซอร์ซซึ่งได้รับแรงบันดาลใจจากอัลกอริทึมสตรอเบอร์รี่ของ OpenAI

หากคุณต้องการสนับสนุนโครงการให้เปิด★เป็น (มุมบนขวา) และแบ่งปันกับเพื่อนของคุณ

ยินดีต้อนรับอย่างมาก!

หนึ่งในโซ่แห่งความคิด:

การติดตั้ง

Python> = 3.10 ควรจะดีแล้ว:

pip install -r requirements.txt

การใช้งาน

เติม .env ด้วยปุ่ม API ที่จำเป็น ฯลฯ หรือตั้งค่า envs เช่น:

 # OpenAI
# Can be OpenAI key or vLLM or other OpenAI proxies:
OPENAI_API_KEY =
# only require below for vLLM or other OpenAI proxies:
OPENAI_BASE_URL =
# only require below for vLLM or other OpenAI proxies:
OPENAI_MODEL_NAME =

# ollama
OLLAMA_OPENAI_API_KEY =
OLLAMA_OPENAI_BASE_URL =
# quoted list of strings or string
OLLAMA_OPENAI_MODEL_NAME =

# Azure
AZURE_OPENAI_API_KEY =
OPENAI_API_VERSION =
AZURE_OPENAI_ENDPOINT =
AZURE_OPENAI_DEPLOYMENT =
# not required
AZURE_OPENAI_MODEL_NAME =

# Anthropic prompt caching very efficient
ANTHROPIC_API_KEY =

GEMINI_API_KEY =
# groq fast and long context
GROQ_API_KEY =
# cerebras only 8k context
CEREBRAS_OPENAI_API_KEY =

# WIP: not yet used
MISTRAL_API_KEY =
HUGGING_FACE_HUB_TOKEN =
REPLICATE_API_TOKEN =
TOGETHERAI_API_TOKEN =

โอลลา

สำหรับ Ollama เราสามารถใช้บริการ OpenAI:

 # Shut down ollama and re-run on whichever GPUs wanted:
sudo systemctl stop ollama.service
CUDA_VISIBLE_DEVICES=0 OLLAMA_HOST=0.0.0.0:11434 ollama serve & > ollama.log &
ollama run mistral:v0.3

จากนั้นเลือกชุด .env ด้วย OLLAMA_OPENAI_BASE_URL=http://localhost:11434/v1/ และเช่น OLLAMA_OPENAI_MODEL_NAME=ollama:mistral:v0.3 หรือรายการ ollama: OLLAMA_OPENAI_MODEL_NAME="[ollama:mistral:v0.3"]

python src/open_strawberry.py --model ollama:mistral:v0.3

หรือเลือกแบบจำลองใน UI

ใช้ UI:

 export ANTHROPIC_API_KEY=your_api_key
streamlit run src/app.py

จากนั้นเปิดเบราว์เซอร์เป็น http: // localhost: 8501 (ควรป๊อปอัพโดยอัตโนมัติ)

ใช้ CLI:

 export ANTHROPIC_API_KEY=your_api_key
python src/open_strawberry.py

จากนั้นเลือกพรอมต์

โครงการอยู่ในช่วงเริ่มต้นเพื่อสำรวจการสร้างร่องรอยการใช้เหตุผลสำหรับปัญหาเฉพาะเพื่อเป็นหลักฐานของแนวคิด

โปรดทราบว่าพรอมต์การสาธิตเป็นรุ่นที่เรียบง่ายและแม้แต่ SONNET3.5 และ GPT-4O ไม่สามารถหาวิธีแก้ปัญหาได้แม้จะมีเปลมาตรฐาน บางครั้งเท่านั้นที่มีเฉพาะ O1-MINI หรือ O1-Preview เท่านั้นแม้ว่าจะเป็นตัวแทนโค้ดและแก้ปัญหาได้อย่างง่ายดาย

พื้นหลัง

Open-Strawberry ขึ้นอยู่กับการคาดเดาเกี่ยวกับ Strawberry ของ OpenAI ซึ่งเป็นอัลกอริทึมการค้นหารุ่นที่ละเอียดอ่อนสำหรับการสร้างและตรวจสอบข้อมูลการฝึกอบรม

โครงการนี้มีจุดมุ่งหมายเพื่อสร้างระบบที่คล้ายกันโดยใช้เครื่องมือและวิธีการแบบโอเพ่นซอร์ส

คำจำกัดความการเก็งกำไร

Q *: อัลกอริทึมการค้นหายุคแรกของการค้นหาแบบ Deep RL ที่พัฒนาโดย OpenAI เพื่อสร้างข้อมูลการฝึกอบรม
สตรอเบอร์รี่ : อัลกอริทึม RL RL รุ่นค้นหาขั้นสูงโดย OpenAI สำหรับการสร้างและตรวจสอบข้อมูลการฝึกอบรม
O1 : GPT-4O และ GPT-4O-MINI แต่ได้รับการปรับแต่งข้อมูลสตรอเบอร์รี่รวมถึง O1-MINI, O1-Preview, O1 และ O1-IOI [1]
Orion : โมเดลที่ใช้ GPT-5 ซึ่งรวมข้อมูลสังเคราะห์ของสตรอเบอร์รี่และจัดการ 0-shot เทียบกับการสืบค้นการใช้เหตุผลยาวดีกว่า

สร้างร่องรอยการใช้เหตุผล

Bootstrapping เป็นกุญแจสำคัญผ่านการเรียนรู้แบบก้าวหน้า

Bootstrap เริ่มต้นจากโมเดลที่ได้รับการปรับแต่งการปรับแต่งการปรับแต่งและปรับแต่งโดยใช้ประวัติการแชทหลายครั้ง
ใช้ระบบพรอมต์ที่นำทาง LLM เพื่อทำตามขั้นตอนที่เพิ่มขึ้นเพื่อแก้ปัญหา
COT ที่มีประโยชน์แบบสุ่มพรอมต์จากผู้ใช้ (เช่นไม่เพียง แต่ถัดไป แต่ "คุณแน่ใจหรือไม่" "ข้อผิดพลาดใด ๆ ?" "คุณจะตรวจสอบคำตอบของคุณอย่างไร") เพื่อการใช้เหตุผลที่หลากหลายและการวิปัสสนาที่ผิดกฎหมาย
เน้น LLM เพื่อให้ขั้นตอนที่จิ๋วที่สุดในการแก้ปัญหาเช่นแม้แต่วลีหรือประโยคเดียวก็เป็นที่ต้องการ เพียงครั้งเดียวที่จะมีการสร้างคำตอบสุดท้ายหากได้รับการตอบกลับเต็มรูปแบบ
สร้างร่องรอยการใช้เหตุผลหลายครั้ง
บางครั้งถามว่าโมเดลมีความมั่นใจเกี่ยวกับคำตอบหรือไม่ ถ้าเป็นเช่นนั้นให้ขอให้วางคำตอบนั้นในแท็ก XML <nominal_answer> หากทำเสร็จแล้วให้ยกเลิกการสร้างการติดตามเหตุผล
ใช้ระบบการตรวจสอบเพื่อตรวจสอบข้อผิดพลาดในประวัติการแชท
สร้างร่องรอยการใช้เหตุผลหลายครั้งต่อปัญหา
ใช้กระบวนการนี้กับปัญหาชุดใหญ่ด้วยความจริงพื้นฐานที่ตรวจสอบได้
ระบุปัญหาที่โมเดลคำสั่งที่มีอยู่สามารถทำได้เพียงแค่มีเปลที่แข็งแกร่งและอุณหภูมิสูงสำหรับการแก้ไขจำนวนคงที่ (เช่น 20) ซ้ำ

ปรับแต่งการใช้เหตุผล

เลือกร่องรอยการใช้เหตุผลที่ถูกต้องและไม่ถูกต้องสำหรับแต่ละปัญหาตามความจริงพื้นฐาน
ปรับแต่งโมเดลโดยใช้ร่องรอยการใช้เหตุผลที่เลือกโดยใช้ DPO หรือ NLHF ซึ่งการตั้งค่าเป็นค่าบวกสำหรับการติดตามที่ถูกต้องลบสำหรับการติดตามที่ไม่ถูกต้อง
เบ้น้ำหนักการตั้งค่าตามจำนวนขั้นตอนที่ดำเนินการเช่นหากไม่ถูกต้องร่องรอยเชิงลบที่ยาวขึ้นควรได้รับรางวัลเชิงลบที่ใหญ่กว่า ร่องรอยที่ถูกต้องที่สั้นกว่าควรได้รับรางวัลในเชิงบวกมากขึ้น
ปรับแต่งโมเดลบนร่องรอยการใช้เหตุผลเหล่านี้ด้วยการผสมผสานของข้อมูลอื่น ๆ ตามปกติ
ใช้โมเดลนี้เพื่อสร้างร่องรอยการใช้เหตุผลสำหรับปัญหาที่ยากขึ้นเล็กน้อยรุ่นใหม่นี้แทบจะไม่สามารถทำได้

การสร้างร่องรอยการใช้เหตุผลซ้ำ ๆ และการปรับแต่งจนกว่าโมเดลจะสามารถทำปัญหาที่ยากที่สุดเช่นขอบเขตของการให้เหตุผลตามร่องรอยซึ่งเป็นปัญหาที่ใช้มากขึ้น (แต่ไม่ใช่ทุกประเภทเนื่องจากไม่จำเป็นเสมอไป)

การคาดเดา

MCTS, TOT, ตัวแทน ฯลฯ ไม่จำเป็นต้องใช้เวลาฝึกอบรมหรือการอนุมาน
การติดฉลากของมนุษย์หรือการตรวจสอบของมนุษย์ไม่จำเป็นต้องมีร่องรอยการใช้เหตุผล
ไม่จำเป็นต้องใช้โมเดลที่ปรับแต่งอย่างละเอียดสำหรับขั้นตอนใดก็ตาม
RLHF ไม่จำเป็นต้องใช้อย่างเคร่งครัดเพียงแค่ DPO
Openai ใช้ RL ลึกเพื่อฝึกฝนร่องรอยการให้เหตุผล แต่ฉันไม่คิดว่าจะจำเป็นต้องใช้ การเล่นด้วยตนเองนั้นทรงพลัง แต่อาจถูกเลียนแบบโดย DPO
Deep RL เป็นเพียงวิธีการสร้างข้อมูลในลักษณะที่มีประสิทธิภาพ แต่ไม่จำเป็นต้องใช้และเพียงแค่รอทำงานก่อนหน้านี้ของ OpenAi

เหตุผล

[P10] เป็นบทความล่าสุดที่ตรวจสอบข้อเสนอของเราในการใช้ข้อมูลหลายเทิร์นที่สร้างขึ้นเองเพื่อผลักดันแบบจำลองไปสู่การแก้ไขตนเองเล็กน้อย

เป้าหมายโครงการ

สร้างร่องรอยการใช้เหตุผลโดยใช้วิธีการที่เสนอ
ปรับแต่งโมเดลบนร่องรอยการใช้เหตุผลที่สร้างขึ้น
ประเมินประสิทธิภาพและเปรียบเทียบกับโมเดลที่มีอยู่ด้วย zero-shot, ไม่กี่ shot, cot ฯลฯ

โครงการอื่น ๆ :

ความแตกต่างที่สำคัญกับราสเบอร์รี่คือพวกเขามุ่งเน้นไปที่การแจ้งเตือนอย่างหนักในขณะที่เราคิดว่าวิธีการเรียนรู้แบบก้าวหน้าด้วยการปรับแต่งซ้ำ ๆ จะ bootstrap ไปสู่ O1
ความแตกต่างที่สำคัญกับ G1 คือพวกเขามุ่งเน้นไปที่พฤติกรรมคล้าย O1 เพียงอย่างเดียวโดยไม่เน้นวิธีการปรับแต่ง O1
การสนับสนุนมานุษยวิทยาและ Google API ของการแคชที่รวดเร็วหมายถึงการทำงานที่ถูกกว่ามาก VLLM รองรับคำนำหน้าแคชที่ช่วยได้เช่นกัน

สถานะปัจจุบัน

โครงการนี้อยู่ในระยะเริ่มต้น ผลลัพธ์และการเปรียบเทียบจะถูกเพิ่มตามที่มีอยู่

สิ่งที่ต้องทำ:

ปัญหาที่ยากขึ้นยังไม่สามารถเข้าถึงได้ซึ่ง O1-Preview จะได้รับประมาณ 50% ของเวลา (ตัวแทนรหัสได้รับ 90% ของเวลา):

ปัญหาง่าย ๆ ได้รับการแก้ไขอย่างน่าเชื่อถือ:

การบริจาค

เรายินดีต้อนรับการมีส่วนร่วมจากชุมชน โปรดดูไฟล์ MD ของเราสำหรับแนวทางเกี่ยวกับวิธีการเข้าร่วม

ปัญหา:

ปุ่มต่อในแอพออกจากการแชทเก่า ๆ ที่ดีที่สุดถ้าเริ่มต้นอย่างสะอาด
การนับโทเค็นจะปรากฏขึ้นหลังจากการตีต่อไปดีที่สุดถ้าทุกรอบ

เกี่ยวกับผู้แต่ง

Jonathan McKinney เป็นผู้อำนวยการฝ่ายวิจัยที่ H2O.AI ที่มีพื้นฐานด้านการเรียนรู้ทางดาราศาสตร์และการเรียนรู้ของเครื่องจักร ประสบการณ์ของเขารวมถึง:

อดีตศาสตราจารย์ดาราศาสตร์ฟิสิกส์ที่ UMD [B1] [B2] [B3] [B4]
ประสบการณ์ 7 ปีกับผลิตภัณฑ์ AutomL ที่ H2O.AI [B5] [B6]
งานล่าสุดเกี่ยวกับการปรับแต่ง LLMS, RAG และ AI ตัวแทน (H2OGPT) [B7] [B8]
ดูโปรเจ็กต์อื่น ๆ ของฉันเช่น H2OGPT และวิศวกรรมที่รวดเร็ว

คำเตือน

โครงการนี้มีการเก็งกำไรและขึ้นอยู่กับข้อมูลที่เปิดเผยต่อสาธารณะเกี่ยวกับงานของ Openai มันไม่ได้เป็นพันธมิตรกับหรือรับรองโดย Openai

การอ้างอิง

[1] https://openai.com/index/learning-to-reason-with-llms/

[b1] https://umdphysics.umd.edu/about-us/news/department-news/697-jon-mckinney-publishes-in-science-express.html

[b2] https://umdphysics.umd.edu/academics/courses/945-physics-420-principles-of-modern-physics.html

[b3] https://www.linkedin.com/in/jonathan-mckinney-32b0ab18/

[b4] https://scholar.google.com/citations?user=5l3lfoyaaaaaj&hl=en

[b5] https://h2o.ai/company/team/makers/

[b6] https://h2o.ai/platform/ai-cloud/make/h2o-driverless-ai/

[b7] https://arxiv.org/abs/2306.08161

[b8] https://github.com/h2oai/h2ogpt

[P0] ห่วงโซ่ของความคิดกระตุ้นการใช้เหตุผลในรูปแบบภาษาขนาดใหญ่: https://arxiv.org/abs/2201.11903

[P1] Star: Bootstrapping การใช้เหตุผลด้วยเหตุผล: https://arxiv.org/abs/2203.14465

[P2] ตรวจสอบทีละขั้นตอน: https://arxiv.org/abs/2305.20050

[P3] Suiet-Star: แบบจำลองภาษาสามารถสอนตัวเองให้คิดก่อนพูด: https://arxiv.org/abs/2403.09629

[P4] คิดก่อนที่คุณจะพูด: โมเดลภาษาการฝึกด้วยโทเค็นหยุดชั่วคราว: https://arxiv.org/abs/2310.02226

[P5] NASH เรียนรู้จากข้อเสนอแนะของมนุษย์: https://arxiv.org/abs/2312.00886

[P6] การคำนวณการคำนวณ LLM-Time การคำนวณอย่างดีที่สุดอาจมีประสิทธิภาพมากกว่าพารามิเตอร์การปรับขนาดพารามิเตอร์ https://arxiv.org/abs/2408.03314

[P7] การเพิ่มปัญหา LLM ด้วยการแก้ปัญหา: การไตร่ตรองการรื้อฟื้นปัญหาที่ชัดเจนและการแจ้งเตือนขั้นสูง https://arxiv.org/abs/2409.09415

[P8] Agent Q: การใช้เหตุผลและการเรียนรู้ขั้นสูงสำหรับตัวแทน AI อิสระ https://arxiv.org/abs//2408.07199

[P9] การปรับขนาดกฎหมายกับเกมกระดาน https://arxiv.org/abs/2104.03113

[P10] แบบจำลองภาษาการฝึกอบรมเพื่อแก้ไขตนเองผ่านการเรียนรู้การเสริมแรง https://arxiv.org/abs/2409.12917

โครงการที่เกี่ยวข้อง:

[OpenO1 Team] Open-Source O1
[Gair-NLP] การเดินทางการจำลองแบบ O1: รายงานความคืบหน้าเชิงกลยุทธ์
[maitrix.org] LLM oritioners
[Bklieger-Groq] G1: การใช้ LLAMA-3.1 70B บน GROQ เพื่อสร้างโซ่การใช้เหตุผลที่คล้าย O1
[O1-chain-of-Though] การถอดความของ O1 การให้เหตุผลตามร่องรอยจากโพสต์บล็อก Openai
[Toyberry] Toyberry: จุดจบของระบบการให้เหตุผล O1 ของ OpenAi โดยใช้ MCTS และ LLM เป็นแบ็กเอนด์ขนาดเล็กของ OpenAI
[ราสเบอร์รี่] ราสเบอร์รี่
[การให้เหตุผลภาพลวงตา] ภาพลวงตา
[โทเค็นการใช้เหตุผล] https://www.reddit.com/r/localllama/comments/1fxf5n3/introducing_my_reasoning_model_no_tags_just_logic/logic/?s hare_id = jxvylklukdiwxcalchefd & utm_content = 2 & utm_medium = ios_app & utm_name = ioscss & utm_source = share & utm_term = 1
- แต่ IMHO, LLM ก็เห็นโทเค็นที่แตกต่างจาก <thinking> และตอนนี้มันก็คือ <reasoning>

ทรัพยากร:

[Awsome-llm-Strawberry] Awsome-llm-Strawberry

วิดีโอที่เกี่ยวข้อง:

https://www.youtube.com/watch?v=TPUN1UOKECC (การรับส่งข้อความพร้อมกับ COT ซ้ำ)
https://youtu.be/ey9ihse82hc?t=2742 (noam Brown ในการเล่นด้วยตนเองด้วย LLMS)
https://youtu.be/nvaxucibb-c?list=pldrirstud7wjxhoi9vvxeo9ktufbxlhf (ทำไม Vlad Tenev และ Tudor Achim ของ Harmonic คิดว่า AI กำลังจะเปลี่ยนคณิตศาสตร์-และทำไมจึงเป็นเรื่องสำคัญ)
https://youtu.be/jplusxjpdra?si=yspkfx57t7eyel5o (Noam Brown ของ Openai, Ilge Akkaya และ Hunter Lightman บน O1 และสอน LLM ให้ดีขึ้น)

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-03-04
ขนาด 1.02MB
มาจาก Github

แอปที่เกี่ยวข้อง

open webui

2024-11-03
powsybl open rao

2024-11-02
เปิดหัวของคุณ

2023-10-24
กาชาสตรอว์เบอร์รี่ เวอร์ชั่นล่าสุด

2023-05-17
เปิดเอเทรียม

2013-02-25
เปิดบล็อก

2009-07-08

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด