Demo Open-? Strawberry? Proyek: https://huggingface.co/spaces/pseudotensor/open-strawberry

Bukti konsep untuk membangun jejak penalaran untuk membangun versi open-source OpenAI O1 sebagaimana diilhami oleh algoritma Strawberry Openai.
Jika Anda ingin mendukung proyek, putar ★ menjadi (sudut kanan atas) dan bagikan dengan teman-teman Anda.
Kontribusi sangat disambut!

Salah satu rantai pemikiran:

Python> = 3.10 harus baik -baik saja, lalu:
pip install -r requirements.txt Isi .env dengan tombol API yang diperlukan dll atau atur envs, misalnya:
# OpenAI
# Can be OpenAI key or vLLM or other OpenAI proxies:
OPENAI_API_KEY =
# only require below for vLLM or other OpenAI proxies:
OPENAI_BASE_URL =
# only require below for vLLM or other OpenAI proxies:
OPENAI_MODEL_NAME =
# ollama
OLLAMA_OPENAI_API_KEY =
OLLAMA_OPENAI_BASE_URL =
# quoted list of strings or string
OLLAMA_OPENAI_MODEL_NAME =
# Azure
AZURE_OPENAI_API_KEY =
OPENAI_API_VERSION =
AZURE_OPENAI_ENDPOINT =
AZURE_OPENAI_DEPLOYMENT =
# not required
AZURE_OPENAI_MODEL_NAME =
# Anthropic prompt caching very efficient
ANTHROPIC_API_KEY =
GEMINI_API_KEY =
# groq fast and long context
GROQ_API_KEY =
# cerebras only 8k context
CEREBRAS_OPENAI_API_KEY =
# WIP: not yet used
MISTRAL_API_KEY =
HUGGING_FACE_HUB_TOKEN =
REPLICATE_API_TOKEN =
TOGETHERAI_API_TOKEN =Untuk Ollama, orang dapat menggunakan layanan OpenAI:
# Shut down ollama and re-run on whichever GPUs wanted:
sudo systemctl stop ollama.service
CUDA_VISIBLE_DEVICES=0 OLLAMA_HOST=0.0.0.0:11434 ollama serve & > ollama.log &
ollama run mistral:v0.3 Kemudian pilih set .env dengan OLLAMA_OPENAI_BASE_URL=http://localhost:11434/v1/ dan misalnya OLLAMA_OPENAI_MODEL_NAME=ollama:mistral:v0.3 atau daftar ollama: ollama_openai_model_name = "ollama: ollama_openai_model_name =" ollama: OLLAMA_OPENAI_MODEL_NAME="[ollama:mistral:v0.3"] : ollama.
python src/open_strawberry.py --model ollama:mistral:v0.3atau pilih model di UI.
Menggunakan UI:
export ANTHROPIC_API_KEY=your_api_key
streamlit run src/app.pyKemudian buka browser ke http: // localhost: 8501 (harus muncul secara otomatis).
Menggunakan CLI:
export ANTHROPIC_API_KEY=your_api_key
python src/open_strawberry.pylalu pilih prompt.
Proyek ini dalam tahap awal untuk mengeksplorasi generasi jejak penalaran untuk masalah spesifik sebagai bukti konsep.
Perhatikan bahwa prompt demo adalah model sederhana dan bahkan sonnet3.5 dan gpt-4o tidak dapat menemukan solusi bahkan dengan cot standar. Hanya preview O1-Mini atau O1 yang kadang-kadang bisa mendapatkan, meskipun agen kode dan dengan mudah menyelesaikannya.
Open-Strawberry didasarkan pada spekulasi tentang Strawberry Openai, algoritma generasi pencarian yang disempurnakan untuk menghasilkan dan memverifikasi data pelatihan.
Proyek ini bertujuan untuk menciptakan kembali sistem serupa menggunakan alat dan metodologi open-source.
Bootstrap adalah kunci melalui pembelajaran progresif.
Ulangi generasi jejak penalaran dan penyempurnaan sampai model dapat melakukan masalah yang paling sulit, sehingga ruang lingkup jejak penalaran yang dikonsumsi lebih banyak jenis masalah (tetapi tidak semua jenis karena tidak selalu diperlukan).
[P10] adalah makalah terbaru yang memvalidasi proposal kami menggunakan data multi-turn yang dihasilkan sendiri untuk sedikit progresif mendorong model menuju koreksi diri.
Proyek Lainnya:
Proyek ini masih dalam tahap awal. Hasil dan perbandingan akan ditambahkan saat tersedia.
TODO:
Masalah yang lebih sulit masih di luar jangkauan, yang hanya mendapat preview O1 mendapatkan sekitar 50% dari waktu (agen kode mendapatkan 90% dari waktu):

Masalah mudah diselesaikan dengan andal:

Kami menyambut kontribusi dari komunitas. Silakan lihat file contributing.md kami untuk pedoman tentang cara berpartisipasi.
Masalah:
Jonathan McKinney adalah Direktur Penelitian di H2O.AI dengan latar belakang dalam astrofisika dan pembelajaran mesin. Pengalamannya meliputi:
Proyek ini bersifat spekulatif dan berdasarkan informasi yang tersedia untuk umum tentang pekerjaan Openai. Ini tidak berafiliasi dengan atau didukung oleh Openai.
[1] https://openai.com/index/learning-to-reason-with-llms/
[B1] https://umdphysics.umd.edu/about-us/news/department-news/697-jon-mckinney-publishes-in-cience-express.html
[B2] https://umdphysics.umd.edu/academics/courses/945-physics-420-principles-of-modern-physics.html
[B3] https://www.linkedin.com/in/jonathan-mckinney-32b0ab18/
[B4] https://scholar.google.com/citations?user=5l3lfoyaaaJ&hl=en
[B5] https://h2o.ai/company/team/makers/
[B6] https://h2o.ai/platform/ai cloud/make/h2o-driverless-ai/
[B7] https://arxiv.org/abs/2306.08161
[B8] https://github.com/h2oai/h2ogpt
[P0] rantai-pemikiran yang mendorong memunculkan penalaran dalam model bahasa besar: https://arxiv.org/abs/2201.11903
[P1] Bintang: Penalaran Bootstrap dengan alasan: https://arxiv.org/abs/2203.14465
[P2] Mari kita verifikasi langkah demi langkah: https://arxiv.org/abs/2305.20050
[P3] Sunyi bintang: Model bahasa dapat mengajar diri mereka sendiri untuk berpikir sebelum berbicara: https://arxiv.org/abs/2403.09629
[P4] BERPIKIR SEBELUM ANDA BERBICARA: Model bahasa pelatihan dengan token jeda: https://arxiv.org/abs/2310.02226
[P5] Nash Learning dari Human Feedback: https://arxiv.org/abs/2312.00886
[P6] Menentukan LLM Test-Time Compute Optimal dapat lebih efektif daripada parameter model penskalaan https://arxiv.org/abs/2408.03314
[P7] Meningkatkan pemecahan masalah LLM dengan REAP: Refleksi, Dekonstruksi Masalah Eksplisit, dan Maju Maju https://arxiv.org/abs/2409.09415
[P8] Agen T: Penalaran dan pembelajaran lanjutan untuk agen AI otonom https://arxiv.org/abs//2408.07199
[P9] Penskalaan Hukum Penskalaan dengan permainan papan https://arxiv.org/abs/2104.03113
[P10] Model bahasa pelatihan untuk mengoreksi diri melalui pembelajaran penguatan https://arxiv.org/abs/2409.12917
Proyek Terkait:
<thinking> dan sekarang itu <reasoning> .Sumber:
Video Terkait: