open strawberry - open strawberry

open strawberry

شفرة المصدر الأخرى

1.0.0

تنزيل

مفتوح الفم

العرض التوضيحي للمفتوح-الفراولة؟ المشروع: https://huggingface.co/spaces/pseudotensor/open-strawberry

إثبات المفهوم لبناء آثار التفكير لبناء نسخة مفتوحة المصدر من Openai O1 كما أنها مستوحاة من خوارزمية الفراولة Openai.

إذا كنت ترغب في دعم المشروع ، فأدرس ★ إلى (الزاوية العلوية اليمين) وشاركه مع أصدقائك.

مساهمات مرحب بها للغاية!

واحدة من سلاسل الفكر:

تثبيت

يجب أن يكون Python> = 3.10 على ما يرام ، ثم:

pip install -r requirements.txt

الاستخدام

املأ .env مع مفاتيح واجهة برمجة التطبيقات المطلوبة وما إلى ذلك أو مجموعة envs ، على سبيل المثال:

 # OpenAI
# Can be OpenAI key or vLLM or other OpenAI proxies:
OPENAI_API_KEY =
# only require below for vLLM or other OpenAI proxies:
OPENAI_BASE_URL =
# only require below for vLLM or other OpenAI proxies:
OPENAI_MODEL_NAME =

# ollama
OLLAMA_OPENAI_API_KEY =
OLLAMA_OPENAI_BASE_URL =
# quoted list of strings or string
OLLAMA_OPENAI_MODEL_NAME =

# Azure
AZURE_OPENAI_API_KEY =
OPENAI_API_VERSION =
AZURE_OPENAI_ENDPOINT =
AZURE_OPENAI_DEPLOYMENT =
# not required
AZURE_OPENAI_MODEL_NAME =

# Anthropic prompt caching very efficient
ANTHROPIC_API_KEY =

GEMINI_API_KEY =
# groq fast and long context
GROQ_API_KEY =
# cerebras only 8k context
CEREBRAS_OPENAI_API_KEY =

# WIP: not yet used
MISTRAL_API_KEY =
HUGGING_FACE_HUB_TOKEN =
REPLICATE_API_TOKEN =
TOGETHERAI_API_TOKEN =

أولاما

بالنسبة إلى Ollama ، يمكن للمرء استخدام خدمة Openai:

 # Shut down ollama and re-run on whichever GPUs wanted:
sudo systemctl stop ollama.service
CUDA_VISIBLE_DEVICES=0 OLLAMA_HOST=0.0.0.0:11434 ollama serve & > ollama.log &
ollama run mistral:v0.3

ثم اختر SET .env مع OLLAMA_OPENAI_BASE_URL=http://localhost:11434/v1/ and eg OLLAMA_OPENAI_MODEL_NAME=ollama:mistral:v0.3 أو قائمة نماذج ollama: OLLAMA_OPENAI_MODEL_NAME="[ollama:mistral:v0.3"]

python src/open_strawberry.py --model ollama:mistral:v0.3

أو اختر النموذج في واجهة المستخدم.

باستخدام واجهة المستخدم:

 export ANTHROPIC_API_KEY=your_api_key
streamlit run src/app.py

ثم افتح المتصفح إلى http: // localhost: 8501 (يجب أن تنبثق تلقائيًا).

باستخدام CLI:

 export ANTHROPIC_API_KEY=your_api_key
python src/open_strawberry.py

ثم اختر موجه.

المشروع في مراحله الأولية لاستكشاف توليد آثار التفكير لمشاكل محددة كدليل على المفهوم.

لاحظ أن موجه التجريبي هو نماذج بسيطة وحتى Sonnet3.5 و GPT-4O لا يمكنهم العثور على حل حتى مع COT القياسي. يمكن فقط الحصول على O1-Mini أو O1-Preview في بعض الأحيان ، على الرغم من أن وكلاء الكود وحلها بسهولة.

خلفية

يعتمد Open-Strawberry على تكهنات حول Openai's Strawberry ، وهي خوارزمية لتوليد عام Openai ، وهي خوارزمية لتوليد بيانات التدريب والتحقق منها.

يهدف هذا المشروع إلى إعادة إنشاء نظام مماثل باستخدام أدوات ومنهجيات مفتوحة المصدر.

تعريفات المضاربة

Q *: خوارزمية البحث البدائية الافتراضية لتجارة RL التي طورتها Openai لإنشاء بيانات التدريب.
Strawberry : خوارزمية متقدمة من RL RL من قبل Openai لتوليد بيانات التدريب والتحقق منه.
O1 : GPT-4O و GPT-4O-MINI على أساس بيانات الفراولة ، بما في ذلك O1-MINI و O1-PREVIEW و O1 و O1-IOI. [1]
Orion : نموذج قائم على GPT-5 الذي يتضمن بيانات الاصطناعية في Strawberry ويدير 10 طلقة مقابل استعلامات التفكير الطويلة بشكل أفضل.

توليد آثار التفكير

Bootstrapping هو المفتاح عبر التعلم التدريجي.

Bootstrap بدءًا من النماذج التي يتم ضبطها بشكل خاضع للإشراف ، وضبطها ، وضبط التفضيلات باستخدام سجل الدردشة متعدد المنعطفات.
قم بتنفيذ نظام موجه يوجه LLM لاتخاذ خطوات إضافية نحو حل ما.
مطالبات COT المفيدة العشوائية من المستخدم (على سبيل المثال ليس فقط بعد ذلك ولكن "هل أنت متأكد؟" "أي أخطاء؟" "كيف يمكنك التحقق من إجابتك؟") إلى التفكير والتأمل المتنوع غير المشروع.
التأكيد على LLM لجعل أكثر خطوة ضئيلة نحو الحل ، على سبيل المثال ، تفضل عبارة أو جملة واحدة. بمجرد إنتاج الإجابة النهائية في حالة إعطاء استجابة كاملة ممتدة.
قم بإنشاء آثار التفكير في الدردشة المتعددة
أحيانًا اسأل ما إذا كان النموذج واثقًا من إجابة. إذا كان الأمر كذلك ، فاطلب من ذلك وضع هذه الإجابة في علامات <Ninal_answer> XML. إذا تم ذلك ، ثم قم بإنهاء جيل تتبع المنطق.
استخدم نظام التحقق للتحقق من وجود أخطاء في سجل الدردشة.
توليد آثار التفكير المتعددة لكل مشكلة.
تطبيق هذه العملية على مجموعة كبيرة من المشكلات مع الحقائق الأرضية القابلة للتحقق.
تحديد المشكلات التي يمكن أن يفعلها نموذج الإرشاد الحالي بالكاد مع COT قوي ودرجة حرارة عالية لعدد من التكرار الثابت (EG 20).

صقله على آثار التفكير

حدد آثار التفكير الصحيحة وغير الصحيحة لكل مشكلة بناءً على الحقيقة الأساسية.
قم بضبط نموذج باستخدام آثار التفكير المحددة باستخدام DPO أو NLHF ، حيث يكون التفضيل إيجابيًا للآثار الصحيحة ، سلبية للتتبعات غير الصحيحة.
قم بتشويه وزن التفضيل بعدد الخطوات التي اتخذت ، أي إذا كانت غير صحيحة ، يجب أن تحصل آثار سلبية أطول على مكافأة سلبية أكبر. الآثار الصحيحة التي تكون أقصر يجب أن تحصل على مكافأة أكثر إيجابية.
ضبط النموذج على آثار التفكير هذه مع مزيج من البيانات الأخرى كالمعتاد.
استخدم هذا النموذج لإنشاء آثار التفكير لمشاكل أصعب قليلاً يمكن أن يفعله هذا النموذج الجديد بالكاد.

كرر توليد آثار التفكير والضبط حتى يتمكن النموذج من القيام بأصعب المشكلات ، بحيث يكون نطاق آثار التفكير يستهلك المزيد من المشكلات (ولكن ليس كل الأنواع لأنه غير مطلوب دائمًا).

التكهنات

MCTS ، TOT ، الوكلاء ، وما إلى ذلك غير مطلوب في وقت التدريب أو الاستدلال.
وضع العلامات البشرية أو التحقق البشري من آثار التفكير غير مطلوب.
النماذج المضبوطة للتحقق غير مطلوبة ، أيهما خطوة.
RLHF غير مطلوب بشكل صارم ، فقط DPO.
يستخدم Openai Deep RL لتدريب آثار التفكير ، لكنني لا أعتقد أن هذا مطلوب. اللعب الذاتي قوي ، ولكن قد يتم تقليده بواسطة DPO.
Deep RL هي مجرد وسيلة لإنشاء البيانات بطريقة فعالة ، ولكنها غير مطلوبة وتوافق فقط من عمل Openai السابق عليها.

المبررات

[P10] عبارة عن ورقة حديثة تتحقق من صحة اقتراحنا باستخدام بيانات متعددة المنعطفات التي تم إنشاؤها ذاتيًا لدفع النموذج تدريجياً بشكل طفيف نحو التصحيح الذاتي.

أهداف المشروع

توليد آثار التفكير باستخدام النهج المقترح.
صقل نموذج على آثار التفكير الناتجة.
قم بتقييم الأداء وقارنه مع النماذج الموجودة مع الصفر ، أو القليل من اللقطة ، أو سرير ، إلخ.

مشاريع أخرى:

الاختلاف الرئيسي في Raspberry هو أنها تركز على المطالبات الصعبة ، بينما نعتقد أن نهج التعلم التدريجي مع الضبط المتكرر سيحصل على O1.
الاختلاف الرئيسي في G1 هو أنها تركز على السلوك الشبيه بـ O1 وحده ، دون التركيز على كيفية ضبط O1.
دعم أنثروبور و API Google من التخزين المؤقت السريع يعني تشغيله. يدعم VLLM البادئة التخزين المؤقت التي تساعد ذلك أيضًا.

الوضع الحالي

هذا المشروع في مراحله الأولية. ستتم إضافة النتائج والمقارنات عند توفرها.

تودو:

لا تزال المشكلات الصعبة بعيدة المنال ، والتي تحصل O1-Preview فقط على حوالي 50 ٪ من الوقت (يحصل وكلاء الرمز على 90 ٪ من الوقت):

يتم حل المشاكل السهلة بشكل موثوق:

المساهمة

نرحب بالمساهمات من المجتمع. يرجى الاطلاع على ملف المساهمة. md للحصول على إرشادات حول كيفية المشاركة.

مشاكل:

تابع الزر في التطبيق يترك الدردشات القديمة الرمادية ، والأفضل إذا تم البدء بشكل نظيف
يعرض حساب الرموز فقط بعد الاستمرار في الاستمرار ، وأفضل ما إذا كان كل منعطف

عن المؤلف

جوناثان ماكيني هو مدير الأبحاث في h2o.ai مع خلفية في الفيزياء الفلكية والتعلم الآلي. تشمل تجربته:

أستاذ الفيزياء الفلكية السابقة في UMD [B1] [B2] [B3] [B4]
7 سنوات من الخبرة مع منتجات السيارات في h2o.ai [b5] [B6]
العمل الأخير على LLMs ، وكلاء RAT و AI (H2OGPT) [B7] [B8]
شاهد مشاريعي الأخرى مثل H2Ogpt و Freft-engineering

تنصل

هذا المشروع مضاربة ويستند إلى معلومات متاحة للجمهور حول عمل Openai. لا ينتم أو يؤيده بواسطة Openai.

مراجع

[1]

[B1] https://umdphysics.umd.edu/about-us/news/department-news/697-jon-mckinney-publishes-in-science-express.html

[B2] https://umdphysics.umd.edu/academics/courses/945-physics-420-principles-of-modern-physics.html

[B3] https://www.linkedin.com/in/jonathan-mckinney-32b0ab18/

[B4] https://scholar.google.com/citations؟user=5l3lfoyaaaaj&hl=en

[B5] https://h2o.ai/company/team/makers/

[B6] https://h2o.ai/platform/ai-cloud/make/h2o-driverlist-ai/

[B7] https://arxiv.org/abs/2306.08161

[B8] https://github.com/h2oai/h2ogpt

[P0] تثير السلسلة المفكر المنطق في نماذج اللغة الكبيرة: https://arxiv.org/abs/2201.11903

[P1] Star: bootstrapping reasy with reasying: https://arxiv.org/abs/2203.14465

[P2] دعنا نتحقق خطوة بخطوة: https://arxiv.org/abs/2305.20050

[P3] نجمة هادئة: يمكن أن تعلّم نماذج اللغة أن تفكر قبل التحدث: https://arxiv.org/abs/2403.09629

[P4] فكر قبل أن تتحدث: نماذج لغة التدريب مع الرموز الموقوفة: https://arxiv.org/abs/2310.02226

[P5] ناش تعلم من التعليقات البشرية: https://arxiv.org/abs/2312.00886

[P6] يمكن أن تكون حساب وقت اختبار LLM على النحو الأمثل أكثر فعالية من معلمات نموذج التحجيم https://arxiv.org/abs/2408.03314

[P7] تعزيز حل المشكلات LLM مع الحصص: الانعكاس ، تفكيك مشكلة صريحة ، و PRODPTING المتقدمة https://arxiv.org/abs/2409.09415

[P8] Agent Q: التفكير المتقدم والتعلم لوكلاء الذكاء الاصطناعي المستقل https://arxiv.org/abs//2408.07199

[P9] تحجيم قوانين التحجيم مع ألعاب الطاولة https://arxiv.org/abs/2104.03113

[P10] نماذج لغة التدريب على التصحيح الذاتي عن طريق التعلم التعزيز https://arxiv.org/abs/2409.12917

المشاريع ذات الصلة:

[Openo1 Team] Open Source O1
[Gair-NLP] رحلة النسخ المتماثل O1: تقرير مررز استراتيجي
[maitrix.org] أسباب LLM
[BKLIEGER-GRAQ] G1: استخدام LLAMA-3.1 70B على GROQ لإنشاء سلاسل التفكير الشبيهة O1
[O1 سلسلة من الأفكار] النسخ من آثار التفكير O1 من منشور مدونة Openai
[Toyberry] Toyberry: من نهاية إلى النهاية التنفيذ الصغير لنظام التفكير O1 من Openai باستخدام MCTS و LLM كخلف
[التوت] التوت
[الوهم المنطقي] الوهم
[الرموز المنطقية] https://www.reddit.com/r/localllama/comments/1fxf5n3/introducing_my_reasoning_model_no_tags_just_logic/؟s hare_id = jxvylklukdiwxcalchefd & utm_content = 2 & utm_medium = ios_app & utm_name = ioscss & utm_source = share & utm_term = 1
- لكن IMHO ، LLM يرى فقط رمزًا مختلفًا عن <thinking> والآن أصبح <reasoning> .

المورد:

[Awsome-Llm-Strawberry] Awsome-Llm-Strawberry

مقاطع الفيديو ذات الصلة:

https://www.youtube.com/watch؟v=tpun1uokecc (مطالبات متتالية مع COT المتكرر)
https://youtu.be/ey9ihse82hc؟t=2742 (noam brown على اللعب الذاتي مع llms)
https://youtu.be/nvaxucibb-c؟list=pldrirstud7wwjxhoi9vvvxeo9ktufbxlhf (لماذا Vlad Tenev و Tudor Achim من Harmonic Think Ai على وشك تغيير الرياضيات-ولماذا مهم)
https://youtu.be/jplusxjpdra؟si=yspkfx57t7eyel5o (Openai's Noam Brown و Ilge Akkaya و Hunter Lightman على O1 وتعليم LLMs للعقل بشكل أفضل)

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2025-03-04
الحجم 1.02MB
من Github

تطبيقات ذات صلة

open webui

2024-11-03
powsybl open rao

2024-11-02
افتح رأسك

2023-10-24
قاشا الفراولة الإصدار الأخير

2023-05-17
أتريوم مفتوح

2013-02-25
افتح المدونة

2009-07-08

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل