العرض التوضيحي للمفتوح-الفراولة؟ المشروع: https://huggingface.co/spaces/pseudotensor/open-strawberry

إثبات المفهوم لبناء آثار التفكير لبناء نسخة مفتوحة المصدر من Openai O1 كما أنها مستوحاة من خوارزمية الفراولة Openai.
إذا كنت ترغب في دعم المشروع ، فأدرس ★ إلى (الزاوية العلوية اليمين) وشاركه مع أصدقائك.
مساهمات مرحب بها للغاية!

واحدة من سلاسل الفكر:

يجب أن يكون Python> = 3.10 على ما يرام ، ثم:
pip install -r requirements.txt املأ .env مع مفاتيح واجهة برمجة التطبيقات المطلوبة وما إلى ذلك أو مجموعة envs ، على سبيل المثال:
# OpenAI
# Can be OpenAI key or vLLM or other OpenAI proxies:
OPENAI_API_KEY =
# only require below for vLLM or other OpenAI proxies:
OPENAI_BASE_URL =
# only require below for vLLM or other OpenAI proxies:
OPENAI_MODEL_NAME =
# ollama
OLLAMA_OPENAI_API_KEY =
OLLAMA_OPENAI_BASE_URL =
# quoted list of strings or string
OLLAMA_OPENAI_MODEL_NAME =
# Azure
AZURE_OPENAI_API_KEY =
OPENAI_API_VERSION =
AZURE_OPENAI_ENDPOINT =
AZURE_OPENAI_DEPLOYMENT =
# not required
AZURE_OPENAI_MODEL_NAME =
# Anthropic prompt caching very efficient
ANTHROPIC_API_KEY =
GEMINI_API_KEY =
# groq fast and long context
GROQ_API_KEY =
# cerebras only 8k context
CEREBRAS_OPENAI_API_KEY =
# WIP: not yet used
MISTRAL_API_KEY =
HUGGING_FACE_HUB_TOKEN =
REPLICATE_API_TOKEN =
TOGETHERAI_API_TOKEN =بالنسبة إلى Ollama ، يمكن للمرء استخدام خدمة Openai:
# Shut down ollama and re-run on whichever GPUs wanted:
sudo systemctl stop ollama.service
CUDA_VISIBLE_DEVICES=0 OLLAMA_HOST=0.0.0.0:11434 ollama serve & > ollama.log &
ollama run mistral:v0.3 ثم اختر SET .env مع OLLAMA_OPENAI_BASE_URL=http://localhost:11434/v1/ and eg OLLAMA_OPENAI_MODEL_NAME=ollama:mistral:v0.3 أو قائمة نماذج ollama: OLLAMA_OPENAI_MODEL_NAME="[ollama:mistral:v0.3"]
python src/open_strawberry.py --model ollama:mistral:v0.3أو اختر النموذج في واجهة المستخدم.
باستخدام واجهة المستخدم:
export ANTHROPIC_API_KEY=your_api_key
streamlit run src/app.pyثم افتح المتصفح إلى http: // localhost: 8501 (يجب أن تنبثق تلقائيًا).
باستخدام CLI:
export ANTHROPIC_API_KEY=your_api_key
python src/open_strawberry.pyثم اختر موجه.
المشروع في مراحله الأولية لاستكشاف توليد آثار التفكير لمشاكل محددة كدليل على المفهوم.
لاحظ أن موجه التجريبي هو نماذج بسيطة وحتى Sonnet3.5 و GPT-4O لا يمكنهم العثور على حل حتى مع COT القياسي. يمكن فقط الحصول على O1-Mini أو O1-Preview في بعض الأحيان ، على الرغم من أن وكلاء الكود وحلها بسهولة.
يعتمد Open-Strawberry على تكهنات حول Openai's Strawberry ، وهي خوارزمية لتوليد عام Openai ، وهي خوارزمية لتوليد بيانات التدريب والتحقق منها.
يهدف هذا المشروع إلى إعادة إنشاء نظام مماثل باستخدام أدوات ومنهجيات مفتوحة المصدر.
Bootstrapping هو المفتاح عبر التعلم التدريجي.
كرر توليد آثار التفكير والضبط حتى يتمكن النموذج من القيام بأصعب المشكلات ، بحيث يكون نطاق آثار التفكير يستهلك المزيد من المشكلات (ولكن ليس كل الأنواع لأنه غير مطلوب دائمًا).
[P10] عبارة عن ورقة حديثة تتحقق من صحة اقتراحنا باستخدام بيانات متعددة المنعطفات التي تم إنشاؤها ذاتيًا لدفع النموذج تدريجياً بشكل طفيف نحو التصحيح الذاتي.
مشاريع أخرى:
هذا المشروع في مراحله الأولية. ستتم إضافة النتائج والمقارنات عند توفرها.
تودو:
لا تزال المشكلات الصعبة بعيدة المنال ، والتي تحصل O1-Preview فقط على حوالي 50 ٪ من الوقت (يحصل وكلاء الرمز على 90 ٪ من الوقت):

يتم حل المشاكل السهلة بشكل موثوق:

نرحب بالمساهمات من المجتمع. يرجى الاطلاع على ملف المساهمة. md للحصول على إرشادات حول كيفية المشاركة.
مشاكل:
جوناثان ماكيني هو مدير الأبحاث في h2o.ai مع خلفية في الفيزياء الفلكية والتعلم الآلي. تشمل تجربته:
هذا المشروع مضاربة ويستند إلى معلومات متاحة للجمهور حول عمل Openai. لا ينتم أو يؤيده بواسطة Openai.
[1]
[B1] https://umdphysics.umd.edu/about-us/news/department-news/697-jon-mckinney-publishes-in-science-express.html
[B2] https://umdphysics.umd.edu/academics/courses/945-physics-420-principles-of-modern-physics.html
[B3] https://www.linkedin.com/in/jonathan-mckinney-32b0ab18/
[B4] https://scholar.google.com/citations؟user=5l3lfoyaaaaj&hl=en
[B5] https://h2o.ai/company/team/makers/
[B6] https://h2o.ai/platform/ai-cloud/make/h2o-driverlist-ai/
[B7] https://arxiv.org/abs/2306.08161
[B8] https://github.com/h2oai/h2ogpt
[P0] تثير السلسلة المفكر المنطق في نماذج اللغة الكبيرة: https://arxiv.org/abs/2201.11903
[P1] Star: bootstrapping reasy with reasying: https://arxiv.org/abs/2203.14465
[P2] دعنا نتحقق خطوة بخطوة: https://arxiv.org/abs/2305.20050
[P3] نجمة هادئة: يمكن أن تعلّم نماذج اللغة أن تفكر قبل التحدث: https://arxiv.org/abs/2403.09629
[P4] فكر قبل أن تتحدث: نماذج لغة التدريب مع الرموز الموقوفة: https://arxiv.org/abs/2310.02226
[P5] ناش تعلم من التعليقات البشرية: https://arxiv.org/abs/2312.00886
[P6] يمكن أن تكون حساب وقت اختبار LLM على النحو الأمثل أكثر فعالية من معلمات نموذج التحجيم https://arxiv.org/abs/2408.03314
[P7] تعزيز حل المشكلات LLM مع الحصص: الانعكاس ، تفكيك مشكلة صريحة ، و PRODPTING المتقدمة https://arxiv.org/abs/2409.09415
[P8] Agent Q: التفكير المتقدم والتعلم لوكلاء الذكاء الاصطناعي المستقل https://arxiv.org/abs//2408.07199
[P9] تحجيم قوانين التحجيم مع ألعاب الطاولة https://arxiv.org/abs/2104.03113
[P10] نماذج لغة التدريب على التصحيح الذاتي عن طريق التعلم التعزيز https://arxiv.org/abs/2409.12917
المشاريع ذات الصلة:
<thinking> والآن أصبح <reasoning> .المورد:
مقاطع الفيديو ذات الصلة: