open strawberry

open strawberry

その他のソースコード

1.0.0

ダウンロード

オープンストールベリー

オープンのデモ - イチゴ？プロジェクト：https：//huggingface.co/spaces/pseudotensor/open-strawberry

OpenaiのStrawberry Algorithmに触発されたように、Openai O1のオープンソースバージョンを構築するための推論トレースを構築するための概念の証明。

プロジェクトをサポートしたい場合は、★を（右上隅）に変えて、友達と共有してください。

貢献は大歓迎です！

思考の鎖の1つ：

インストール

python> = 3.10は大丈夫です。

pip install -r requirements.txt

使用法

必要なAPIキーなどで.envを入力するか、envsを設定します。

 # OpenAI
# Can be OpenAI key or vLLM or other OpenAI proxies:
OPENAI_API_KEY =
# only require below for vLLM or other OpenAI proxies:
OPENAI_BASE_URL =
# only require below for vLLM or other OpenAI proxies:
OPENAI_MODEL_NAME =

# ollama
OLLAMA_OPENAI_API_KEY =
OLLAMA_OPENAI_BASE_URL =
# quoted list of strings or string
OLLAMA_OPENAI_MODEL_NAME =

# Azure
AZURE_OPENAI_API_KEY =
OPENAI_API_VERSION =
AZURE_OPENAI_ENDPOINT =
AZURE_OPENAI_DEPLOYMENT =
# not required
AZURE_OPENAI_MODEL_NAME =

# Anthropic prompt caching very efficient
ANTHROPIC_API_KEY =

GEMINI_API_KEY =
# groq fast and long context
GROQ_API_KEY =
# cerebras only 8k context
CEREBRAS_OPENAI_API_KEY =

# WIP: not yet used
MISTRAL_API_KEY =
HUGGING_FACE_HUB_TOKEN =
REPLICATE_API_TOKEN =
TOGETHERAI_API_TOKEN =

オラマ

Ollamaの場合、Openaiサービスを使用できます。

 # Shut down ollama and re-run on whichever GPUs wanted:
sudo systemctl stop ollama.service
CUDA_VISIBLE_DEVICES=0 OLLAMA_HOST=0.0.0.0:11434 ollama serve & > ollama.log &
ollama run mistral:v0.3

次に.env OLLAMA_OPENAI_BASE_URL=http://localhost:11434/v1/ and eg OLLAMA_OPENAI_MODEL_NAME=ollama:mistral:v0.3またはollamaモデルのリスト： OLLAMA_OPENAI_MODEL_NAME="[ollama:mistral:v0.3"]

python src/open_strawberry.py --model ollama:mistral:v0.3

または、UIでモデルを選択します。

UIの使用：

 export ANTHROPIC_API_KEY=your_api_key
streamlit run src/app.py

次に、ブラウザをhttp：// localhost：8501に開きます（自動的にポップアップする必要があります）。

CLIの使用：

 export ANTHROPIC_API_KEY=your_api_key
python src/open_strawberry.py

次に、プロンプトを選択します。

このプロジェクトは、概念の証明として特定の問題の推論痕跡を生成するための初期段階にあります。

デモプロンプトはシンプルなモデルであり、Sonnet3.5およびGPT-4oも標準のCOTを使用してもソリューションを見つけることができないことに注意してください。コードエージェントであり、簡単に解決できるものの、O1-MINIまたはO1-PREVIEWのみが取得できることがあります。

背景

Open-Strawberryは、トレーニングデータを生成および検証するための洗練された検索ジェネレーションアルゴリズムであるOpenaiのStrawberryに関する憶測に基づいています。

このプロジェクトは、オープンソースツールと方法論を使用して同様のシステムを再現することを目的としています。

投機的定義

Q *：トレーニングデータを生成するためにOpenAIによって開発された仮想的な原始検索ジェネレーションディープRLアルゴリズム。
ストロベリー：トレーニングデータを生成および検証するためのOpenAIによる高度な検索世代のディープRLアルゴリズム。
O1 ：GPT-4OおよびGPT-4O-MINIベースですが、O1-MINI、O1-PREVIEW、O1、O1-IOIを含むイチゴデータに微調整されています。 [1]
Orion ：Strawberryの合成データを組み込んでおり、0ショットと長い推論クエリを管理するGPT-5ベースのモデル。

推論のトレースを生成します

ブートストラップは、プログレッシブ学習を介して重要です。

マルチターンチャット履歴を使用した、既存の監視付き微調整された微調整された命令調整された優先順位モデルから始まるブートストラップ。
LLMをガイドするプロンプトシステムを実装して、ソリューションに向けて増分ステップを実行します。
ユーザーからのランダム化された有用なCOTプロンプト（次は次のものではなく、「確かですか？」「間違いはありますか？」「答えをどのように検証しますか？」）。
LLMを強調して、ソリューションに向けて最も控えめな一歩を踏み出すことを強調します。たとえば、単一のフレーズや文も望ましいです。拡張された完全な応答が与えられる場合にのみ、最終的な回答が生成されると。
マルチターンチャット推論のトレースを生成します
モデルが答えについて自信を持っているかどうかを尋ねることがあります。もしそうなら、その回答を<final_answer> xmlタグに配置するように依頼します。完了した場合、推論トレース生成を終了します。
検証システムを使用して、チャット履歴のエラーを確認します。
問題ごとに複数の推論トレースを生成します。
このプロセスを、検証可能なグラウンドトゥルースを含む一連の問題に適用します。
問題を特定する既存の指示モデルは、数回の固定（20）の繰り返しに対して強いCOTと高温でかろうじて行うことができます。

推論の痕跡を微調整します

グラウンドトゥルースに基づいて、各問題の正しい推論トレースを選択します。
DPOまたはNLHFを使用して選択された推論トレースを使用してモデルを微調整します。ここでは、正しいトレースの場合は好みが正であり、誤ったトレースに負です。
優先重量を取った手順、つまり不正確な場合、より長い負のトレースはより大きな負の報酬を得るはずです。短い正しい痕跡は、より肯定的な報酬を得るはずです。
これらの推論のトレースでモデルを他のデータの組み合わせで微調整します。
このモデルを使用して、この新しいモデルがかろうじて実行できるわずかに難しい問題の推論トレースを生成します。

モデルが最も困難な問題を引き起こすまで、推論の痕跡と微調整のリピートは、より多くのタイプの問題として推論される範囲が消費されるようになります（ただし、必ずしも必要ではないすべてのタイプではありません）。

憶測

MCT、TOT、エージェントなど。トレーニングまたは推論時間では必要ありません。
推論の痕跡の人間のラベル付けまたは人間の検証は必要ありません。
どちらのステップでも、検証のための微調整されたモデルは必要ありません。
RLHFは厳密に必要ではなく、DPOだけです。
Openaiは、推論の痕跡をトレーニングするためにディープRLを使用していますが、これは必要ではないと思います。自己プレイは強力ですが、DPOによって模倣される場合があります。
Deep RLは、効率的な方法でデータを生成するための単なる方法ですが、必須ではなく、Openaiの以前の作業からのホールドオーバーだけです。

正当化

[P10]は、自己生成されたマルチターンデータを使用して、モデルを自己修正に向けてわずかに徐々に推進するという提案を検証する最近の論文です。

プロジェクトの目標

提案されたアプローチを使用して、推論トレースを生成します。
生成された推論トレースでモデルを微調整します。
パフォーマンスを評価し、ゼロショット、少数のショット、ベッドなどの既存のモデルと比較します。

その他のプロジェクト：

Raspberryの重要な違いは、彼らがハードプロンプトに焦点を合わせていることです。一方、微調整を繰り返して進歩的な学習アプローチはO1に向かってブートストラップすると考えています。
G1の重要な違いは、O1に向かって微調整する方法を強調することなく、O1様の行動のみに焦点を合わせていることです。
迅速なキャッシュの人類およびGoogle APIサポートは、実行がはるかに安くなることを意味します。 VLLMは、それに役立つプレフィックスキャッシングをサポートしています。

現在のステータス

このプロジェクトは初期段階にあります。結果と比較は、利用可能になると追加されます。

TODO：

難しい問題はまだ手の届かないところにあり、O1-Previewは時間の約50％しか得られません（コードエージェントは90％の時間を獲得します）：

簡単な問題は確実に解決されます：

貢献

コミュニティからの貢献を歓迎します。参加方法に関するガイドラインについては、converting.mdファイルをご覧ください。

問題：

アプリの続行
トークンのカウントは、ヒット後にのみ表示されます。

著者について

Jonathan McKinneyは、天体物理学と機械学習のバックグラウンドを持つH2O.AIの研究ディレクターです。彼の経験には以下が含まれます：

UMDの元天体物理学教授[B1] [B2] [B3] [B4]
h2o.ai [b5] [b6]で自動車製品の7年間の経験
微調整LLMS、RAG、およびAIエージェントに関する最近の研究（H2OGPT）[B7] [B8]
h2ogptやプロンプトエンジニアリングなど、他のプロジェクトをご覧ください

免責事項

このプロジェクトは投機的であり、Openaiの仕事に関する公開されている情報に基づいています。 Openaiと提携したり、承認されたりしていません。

参照

[1] https://openai.com/index/learning-to-reason-with-llms/

[b1] https://umdphysics.umd.edu/about-us/news/department-news/697-jon-mckinney-publishes-inscience-express.html

[b2] https://umdphysics.umd.edu/academics/courses/945-physics-420-principles-of-modern-physics.html

[B3] https://www.linkedin.com/in/jonathan-mckinney-32b0ab18/

[b4] https://scholar.google.com/citations?user=5l3lfoyaaaj&hl=en

[B5] https://h2o.ai/company/team/makers/

[b6] https://h2o.ai/platform/ai-cloud/make/h2o-driverless-ai/

[b7] https://arxiv.org/abs/2306.08161

[b8] https://github.com/h2oai/h2ogpt

[P0]チェーンオブ・考えのプロンプトは、大規模な言語モデルで推論を引き出します：https：//arxiv.org/abs/2201.11903

[P1]星：推論を伴うブートストラップの推論：https：//arxiv.org/abs/2203.14465

[P2]段階的に検証しましょう：https：//arxiv.org/abs/2305.20050

[P3]静かな星：言語モデルは、話す前に考えるように自分自身を教えることができます：https：//arxiv.org/abs/2403.09629

[P4]話す前に考えてみてください：トークンを使用した言語モデルのトレーニング：https：//arxiv.org/abs/2310.0226

[P5]人間のフィードバックから学習：https：//arxiv.org/abs/2312.00886

[P6] LLMテスト時間のスケーリング最適なスケーリングモデルパラメーターhttps://arxiv.org/abs/2408.03314よりも効果的です

[P7] REAPによるLLM問題解決の強化：反射、明示的な問題解体、および高度なプロンプトhttps://arxiv.org/abs/2409.09415

[P8]エージェントQ：自律AIエージェントhttps://arxiv.org/abs//2408.07199の高度な推論と学習

[P9]ボードゲームhttps://arxiv.org/abs/2104.03113を使用したスケーリング法則のスケーリング法

[P10]強化学習を介して自己修正するための言語モデルのトレーニングhttps://arxiv.org/abs/2409.12917

オープンストールベリー

インストール

使用法

オラマ

背景

投機的定義

推論のトレースを生成します

推論の痕跡を微調整します

憶測

正当化

プロジェクトの目標

現在のステータス

貢献

著者について

免責事項

参照

open webui

powsybl open rao

頭を開いてください

ガチャストロベリー最新バージョン

オープンアトリウム

ブログを開く

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express