Unduh open strawberry - Unduh Kode Sumber open strawberry

open strawberry

Kode sumber lainnya

1.0.0

Unduh

Open-Strawberry

Demo Open-? Strawberry? Proyek: https://huggingface.co/spaces/pseudotensor/open-strawberry

Bukti konsep untuk membangun jejak penalaran untuk membangun versi open-source OpenAI O1 sebagaimana diilhami oleh algoritma Strawberry Openai.

Jika Anda ingin mendukung proyek, putar ★ menjadi (sudut kanan atas) dan bagikan dengan teman-teman Anda.

Kontribusi sangat disambut!

Salah satu rantai pemikiran:

Instalasi

Python> = 3.10 harus baik -baik saja, lalu:

pip install -r requirements.txt

Penggunaan

Isi .env dengan tombol API yang diperlukan dll atau atur envs, misalnya:

 # OpenAI
# Can be OpenAI key or vLLM or other OpenAI proxies:
OPENAI_API_KEY =
# only require below for vLLM or other OpenAI proxies:
OPENAI_BASE_URL =
# only require below for vLLM or other OpenAI proxies:
OPENAI_MODEL_NAME =

# ollama
OLLAMA_OPENAI_API_KEY =
OLLAMA_OPENAI_BASE_URL =
# quoted list of strings or string
OLLAMA_OPENAI_MODEL_NAME =

# Azure
AZURE_OPENAI_API_KEY =
OPENAI_API_VERSION =
AZURE_OPENAI_ENDPOINT =
AZURE_OPENAI_DEPLOYMENT =
# not required
AZURE_OPENAI_MODEL_NAME =

# Anthropic prompt caching very efficient
ANTHROPIC_API_KEY =

GEMINI_API_KEY =
# groq fast and long context
GROQ_API_KEY =
# cerebras only 8k context
CEREBRAS_OPENAI_API_KEY =

# WIP: not yet used
MISTRAL_API_KEY =
HUGGING_FACE_HUB_TOKEN =
REPLICATE_API_TOKEN =
TOGETHERAI_API_TOKEN =

Ollama

Untuk Ollama, orang dapat menggunakan layanan OpenAI:

 # Shut down ollama and re-run on whichever GPUs wanted:
sudo systemctl stop ollama.service
CUDA_VISIBLE_DEVICES=0 OLLAMA_HOST=0.0.0.0:11434 ollama serve & > ollama.log &
ollama run mistral:v0.3

Kemudian pilih set .env dengan OLLAMA_OPENAI_BASE_URL=http://localhost:11434/v1/ dan misalnya OLLAMA_OPENAI_MODEL_NAME=ollama:mistral:v0.3 atau daftar ollama: ollama_openai_model_name = "ollama: ollama_openai_model_name =" ollama: OLLAMA_OPENAI_MODEL_NAME="[ollama:mistral:v0.3"] : ollama.

python src/open_strawberry.py --model ollama:mistral:v0.3

atau pilih model di UI.

Menggunakan UI:

 export ANTHROPIC_API_KEY=your_api_key
streamlit run src/app.py

Kemudian buka browser ke http: // localhost: 8501 (harus muncul secara otomatis).

Menggunakan CLI:

 export ANTHROPIC_API_KEY=your_api_key
python src/open_strawberry.py

lalu pilih prompt.

Proyek ini dalam tahap awal untuk mengeksplorasi generasi jejak penalaran untuk masalah spesifik sebagai bukti konsep.

Perhatikan bahwa prompt demo adalah model sederhana dan bahkan sonnet3.5 dan gpt-4o tidak dapat menemukan solusi bahkan dengan cot standar. Hanya preview O1-Mini atau O1 yang kadang-kadang bisa mendapatkan, meskipun agen kode dan dengan mudah menyelesaikannya.

Latar belakang

Open-Strawberry didasarkan pada spekulasi tentang Strawberry Openai, algoritma generasi pencarian yang disempurnakan untuk menghasilkan dan memverifikasi data pelatihan.

Proyek ini bertujuan untuk menciptakan kembali sistem serupa menggunakan alat dan metodologi open-source.

Definisi spekulatif

Q *: Algoritma RL dalam generasi primordial hipotetis yang dikembangkan oleh OpenAi untuk menghasilkan data pelatihan.
Strawberry : Algoritma RL dalam generasi pencarian lanjutan oleh OpenAI untuk menghasilkan dan memverifikasi data pelatihan.
O1 : GPT-4O dan GPT-4O-Mini berbasis tetapi disesuaikan dengan data stroberi, termasuk O1-Mini, O1-Preview, O1, dan O1-IOI. [1]
Orion : Model berbasis GPT-5 yang menggabungkan data sintetis Strawberry dan mengelola 0-shot vs. Panjang penalaran lebih baik.

Menghasilkan jejak penalaran

Bootstrap adalah kunci melalui pembelajaran progresif.

Bootstrap mulai dari model yang diselenggarakan dengan baik, disesuaikan dengan instruksi, dan disesuaikan dengan preferensi menggunakan riwayat obrolan multi-giliran.
Menerapkan sistem prompt yang memandu LLM untuk mengambil langkah tambahan menuju solusi.
COT yang berguna secara acak meminta pengguna (misalnya bukan hanya berikutnya tetapi "apakah Anda yakin?" "Ada kesalahan?" "Bagaimana Anda memverifikasi jawaban Anda?") Untuk beragam penalaran dan introspeksi.
Tekankan LLM untuk membuat langkah paling kecil menuju solusi, misalnya bahkan satu frasa atau kalimat lebih disukai. Hanya setelah jawaban terakhir akan diproduksi jika respons penuh yang diperluas diberikan.
Menghasilkan jejak penalaran obrolan multi-giliran
Terkadang bertanya apakah model tersebut yakin tentang jawaban. Jika demikian, maka tanyakan untuk menempatkan jawaban itu di <final_answer> tag XML. Jika dilakukan, maka hentikan generasi jejak penalaran.
Menggunakan sistem verifikasi untuk memeriksa kesalahan dalam riwayat obrolan.
Menghasilkan beberapa jejak penalaran per masalah.
Terapkan proses ini ke serangkaian masalah besar dengan kebenaran tanah yang dapat diverifikasi.
Identifikasi masalah Model instruksi yang ada dapat dilakukan hanya dengan COT yang kuat dan suhu tinggi untuk sejumlah pengulangan tetap (mis. 20).

Menyempurnakan jejak penalaran

Pilih jejak penalaran yang benar dan salah untuk setiap masalah berdasarkan kebenaran dasar.
Fine-Tune model menggunakan jejak penalaran yang dipilih menggunakan DPO atau NLHF, di mana preferensi positif untuk jejak yang benar, negatif untuk jejak yang salah.
Condongkan bobot preferensi dengan jumlah langkah yang diambil, yaitu jika salah, maka jejak negatif yang lebih lama harus mendapatkan hadiah negatif yang lebih besar. Jejak yang benar yang lebih pendek harus mendapatkan lebih banyak hadiah positif.
Menyempurnakan model pada jejak penalaran ini dengan campuran data lain seperti biasa.
Gunakan model ini untuk menghasilkan jejak penalaran untuk masalah yang sedikit lebih sulit yang hampir tidak dapat dilakukan oleh model baru ini.

Ulangi generasi jejak penalaran dan penyempurnaan sampai model dapat melakukan masalah yang paling sulit, sehingga ruang lingkup jejak penalaran yang dikonsumsi lebih banyak jenis masalah (tetapi tidak semua jenis karena tidak selalu diperlukan).

Spekulasi

MCT, TOT, agen, dll. Tidak diperlukan pada waktu pelatihan atau inferensi.
Pelabelan manusia atau verifikasi jejak penalaran manusia tidak diperlukan.
Model yang disesuaikan untuk verifikasi tidak diperlukan, langkah mana pun.
RLHF tidak sepenuhnya diperlukan, hanya DPO.
Openai menggunakan RL yang dalam untuk melatih jejak penalaran, tetapi saya tidak berpikir ini diperlukan. Permainan diri sangat kuat, tetapi mungkin ditiru oleh DPO.
Deep RL hanyalah cara untuk menghasilkan data dengan cara yang efisien, tetapi tidak diperlukan dan hanya bertahan dari pekerjaan Openai sebelumnya di atasnya.

Pembenaran

[P10] adalah makalah terbaru yang memvalidasi proposal kami menggunakan data multi-turn yang dihasilkan sendiri untuk sedikit progresif mendorong model menuju koreksi diri.

Tujuan proyek

Hasilkan jejak penalaran menggunakan pendekatan yang diusulkan.
Fine-tune model pada jejak penalaran yang dihasilkan.
Evaluasi kinerja dan bandingkan dengan model yang ada dengan nol-shot, beberapa-shot, cot, dll.

Proyek Lainnya:

Perbedaan utama dengan raspberry adalah bahwa mereka fokus pada permintaan yang keras, sementara kami berpikir pendekatan pembelajaran progresif dengan penyempurnaan berulang-ulang akan melakukan bootstrap menuju O1.
Perbedaan utama dengan G1 adalah bahwa mereka difokuskan pada perilaku seperti O1 saja, tanpa penekanan bagaimana menyempurnakan O1.
Dukungan Anthropic dan Google API dari caching prompt berarti jauh lebih murah untuk dijalankan. VLLM mendukung caching awalan yang membantu itu juga.

Status saat ini

Proyek ini masih dalam tahap awal. Hasil dan perbandingan akan ditambahkan saat tersedia.

TODO:

Masalah yang lebih sulit masih di luar jangkauan, yang hanya mendapat preview O1 mendapatkan sekitar 50% dari waktu (agen kode mendapatkan 90% dari waktu):

Masalah mudah diselesaikan dengan andal:

Berkontribusi

Kami menyambut kontribusi dari komunitas. Silakan lihat file contributing.md kami untuk pedoman tentang cara berpartisipasi.

Masalah:

Lanjutkan tombol di aplikasi meninggalkan obrolan tua abu-abu, terbaik jika mulai bersih
Menghitung token hanya muncul setelah hit lanjutan, terbaik jika setiap belokan

Tentang penulis

Jonathan McKinney adalah Direktur Penelitian di H2O.AI dengan latar belakang dalam astrofisika dan pembelajaran mesin. Pengalamannya meliputi:

Mantan profesor astrofisika di UMD [B1] [B2] [B3] [B4]
7 tahun pengalaman dengan produk Automl di H2O.AI [B5] [B6]
Pekerjaan terbaru tentang fine-tuning LLMS, RAG, dan AI Agents (H2OGPT) [B7] [B8]
Lihat proyek saya yang lain seperti H2OGpt dan rekayasa cepat

Penafian

Proyek ini bersifat spekulatif dan berdasarkan informasi yang tersedia untuk umum tentang pekerjaan Openai. Ini tidak berafiliasi dengan atau didukung oleh Openai.

Referensi

[1] https://openai.com/index/learning-to-reason-with-llms/

[B1] https://umdphysics.umd.edu/about-us/news/department-news/697-jon-mckinney-publishes-in-cience-express.html

[B2] https://umdphysics.umd.edu/academics/courses/945-physics-420-principles-of-modern-physics.html

[B3] https://www.linkedin.com/in/jonathan-mckinney-32b0ab18/

[B4] https://scholar.google.com/citations?user=5l3lfoyaaaJ&hl=en

[B5] https://h2o.ai/company/team/makers/

[B6] https://h2o.ai/platform/ai cloud/make/h2o-driverless-ai/

[B7] https://arxiv.org/abs/2306.08161

[B8] https://github.com/h2oai/h2ogpt

[P0] rantai-pemikiran yang mendorong memunculkan penalaran dalam model bahasa besar: https://arxiv.org/abs/2201.11903

[P1] Bintang: Penalaran Bootstrap dengan alasan: https://arxiv.org/abs/2203.14465

[P2] Mari kita verifikasi langkah demi langkah: https://arxiv.org/abs/2305.20050

[P3] Sunyi bintang: Model bahasa dapat mengajar diri mereka sendiri untuk berpikir sebelum berbicara: https://arxiv.org/abs/2403.09629

[P4] BERPIKIR SEBELUM ANDA BERBICARA: Model bahasa pelatihan dengan token jeda: https://arxiv.org/abs/2310.02226

[P5] Nash Learning dari Human Feedback: https://arxiv.org/abs/2312.00886

[P6] Menentukan LLM Test-Time Compute Optimal dapat lebih efektif daripada parameter model penskalaan https://arxiv.org/abs/2408.03314

[P7] Meningkatkan pemecahan masalah LLM dengan REAP: Refleksi, Dekonstruksi Masalah Eksplisit, dan Maju Maju https://arxiv.org/abs/2409.09415

[P8] Agen T: Penalaran dan pembelajaran lanjutan untuk agen AI otonom https://arxiv.org/abs//2408.07199

[P9] Penskalaan Hukum Penskalaan dengan permainan papan https://arxiv.org/abs/2104.03113

[P10] Model bahasa pelatihan untuk mengoreksi diri melalui pembelajaran penguatan https://arxiv.org/abs/2409.12917

Proyek Terkait:

[Tim openo1] Open-Source O1
[GAIR-NLP] O1 Replication Journey: Laporan Kemajuan Strategis
[Maitrix.org] LLM Reasoners
[bklieger-groq] g1: menggunakan llama-3.1 70b di groq untuk membuat rantai penalaran seperti O1
[O1-rantai-pemikiran] Transkripsi jejak penalaran O1 dari posting blog openai
[ToyBerry] Toyberry: Akhir ujung ke ujung implementasi kecil sistem penalaran O1 Openai menggunakan MCTS dan LLM sebagai backend
[Raspberry] raspberry
[Penetapan Ilusi] Ilusi
[penalaran token] https://www.reddit.com/r/localllama/comments/1fxf5n3/introducing_my_reasoning_model_no_tags_just_logic/?s hare_id = jxvylklukdiwxcalchefd & utm_content = 2 & utm_medium = ios_app & utm_name = IOSCSS & utm_source = share & utm_term = 1
- Tapi IMHO, LLM hanya melihat token yang berbeda dari <thinking> dan sekarang itu <reasoning> .

Sumber:

[Awsome-llm-strawberry] awsome-llm-strawberry

Video Terkait:

https://www.youtube.com/watch?v=tpun1uokecc (cascading prompt dengan cot berulang)
https://youtu.be/ey9ihse82hc?t=2742 (Noam Brown pada mandiri dengan LLMS)
https://youtu.be/nvaxucibb-c?list=plrirstud7wwjxhoi9vvxeo9ktufbxlhf (mengapa vlad tenev dan tudor achim dari harmonik berpikir ai akan mengubah matematika-dan mengapa hal itu penting)
https://youtu.be/jplusxjpdra?si=yspkfx57t7eyel5o (Openai's Noam Brown, Ilge Akkaya dan Hunter Lightman di O1 dan mengajar LLM untuk beralasan dengan lebih baik)

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-03-04
ukuran 1.02MB
Berasal dari Github

Aplikasi Terkait

open webui

2024-11-03
powsybl open rao

2024-11-02
Buka Kepalamu

2023-10-24
Gacha Stroberi versi terbaru

2023-05-17
Buka Atrium

2013-02-25
Buka Blognya

2009-07-08

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua