open strawberry下载 - open strawberry源代码下载

open strawberry

其他源码

1.0.0

下载

开晶莓

开放的演示 - 草莓？项目：https：//huggingface.co/spaces/pseudotensor/open-strawberry

构造推理轨迹的概念概念，以构建受Openai的草莓算法启发的OpenAi O1的开源版本。

如果您想支持该项目，请将★变成（右上角）并与您的朋友分享。

贡献非常欢迎！

思想的链条之一：

安装

python> = 3.10应该很好，然后：

pip install -r requirements.txt

用法

用所需的API键等填充.env或设置Envs，例如：

 # OpenAI
# Can be OpenAI key or vLLM or other OpenAI proxies:
OPENAI_API_KEY =
# only require below for vLLM or other OpenAI proxies:
OPENAI_BASE_URL =
# only require below for vLLM or other OpenAI proxies:
OPENAI_MODEL_NAME =

# ollama
OLLAMA_OPENAI_API_KEY =
OLLAMA_OPENAI_BASE_URL =
# quoted list of strings or string
OLLAMA_OPENAI_MODEL_NAME =

# Azure
AZURE_OPENAI_API_KEY =
OPENAI_API_VERSION =
AZURE_OPENAI_ENDPOINT =
AZURE_OPENAI_DEPLOYMENT =
# not required
AZURE_OPENAI_MODEL_NAME =

# Anthropic prompt caching very efficient
ANTHROPIC_API_KEY =

GEMINI_API_KEY =
# groq fast and long context
GROQ_API_KEY =
# cerebras only 8k context
CEREBRAS_OPENAI_API_KEY =

# WIP: not yet used
MISTRAL_API_KEY =
HUGGING_FACE_HUB_TOKEN =
REPLICATE_API_TOKEN =
TOGETHERAI_API_TOKEN =

霍拉马

对于Ollama，可以使用OpenAi服务：

 # Shut down ollama and re-run on whichever GPUs wanted:
sudo systemctl stop ollama.service
CUDA_VISIBLE_DEVICES=0 OLLAMA_HOST=0.0.0.0:11434 ollama serve & > ollama.log &
ollama run mistral:v0.3

OLLAMA_OPENAI_MODEL_NAME=ollama:mistral:v0.3选择使用OLLAMA_OPENAI_BASE_URL=http://localhost:11434/v1/ and选择.env OLLAMA_OPENAI_MODEL_NAME="[ollama:mistral:v0.3"] 。

python src/open_strawberry.py --model ollama:mistral:v0.3

或在UI中选择模型。

使用UI：

 export ANTHROPIC_API_KEY=your_api_key
streamlit run src/app.py

然后将浏览器打开至http：// localhost：8501（应自动弹出）。

使用CLI：

 export ANTHROPIC_API_KEY=your_api_key
python src/open_strawberry.py

然后选择提示。

该项目处于其初期阶段，旨在探索特定问题作为概念证明的推理痕迹的产生。

请注意，演示提示是简单的型号，即使使用标准COT，也无法找到SONNET3.5和GPT-4O。尽管代码代理并可以轻松解决它，但有时只能获得O1-Mini或O1-preiview。

背景

开阔的晶布基于关于Openai的草莓的猜测，Openai的草莓是一种精致的搜索生成算法，用于生成和验证培训数据。

该项目旨在使用开源工具和方法来重新创建类似的系统。

投机定义

Q *：一种假设的原始搜索产生深层RL算法由OpenAI开发，以生成培训数据。
草莓：OpenAI的高级搜索产生深度RL算法，用于生成和验证培训数据。
O1 ：基于GPT-4O和GPT-4O-MINI，但基于草莓数据，包括O1-Mini，O1-Preview，O1和O1-IOI。 [1]
猎户座：基于GPT-5的模型，结合了草莓的合成数据并管理0-Shot与长期推理查询。

生成推理轨迹

引导是通过渐进学习的关键。

Bootstrap从现有监督的微调，指导调整，首选项模型的模型开始，使用多转移聊天历史记录。
实施一个提示系统，该系统将指导LLM采取增量步骤朝着解决方案迈进。
用户的随机有用的COT提示（例如，不仅是“您确定吗？”“有什么错误吗？
强调LLM以使解决方案最小的步骤，例如，即使是单个短语或句子也是首选。只有在给出扩展的全部响应时才能产生最终答案。
生成多转弯聊天推理跟踪
有时会问模型是否对答案充满信心。如果是这样，请要求将答案放在<final_answer> XML标签中。如果完成，则终止推理痕量生成。
采用验证系统检查聊天历史记录中的错误。
每个问题生成多个推理轨迹。
将此过程应用于具有可验证的基础真理的大量问题。
确定现有的指示模型几乎只能使用强大的COT和高温来完成一些固定重复（例如20）重复。

对推理轨迹进行微调

根据地面真相为每个问题选择正确和错误的推理迹线。
使用选定的推理轨迹使用DPO或NLHF微调模型，其中偏好对正确的轨迹呈阳性，对不正确的轨迹为负。
按照采取的步骤数量偏向偏好权重，即如果不正确，则更长的负痕迹应获得更大的负奖励。较短的正确痕迹应该获得更多的积极奖励。
像往常一样，将这些推理痕迹的模型微调。
使用此模型生成推理迹线，以解决该新模型几乎无法做到的更难的问题。

重复生成推理轨迹并进行微调，直到模型可以解决最严重的问题，以便推理轨迹的范围消耗了更多类型的问题（但不是所有类型的问题）。

猜测

MCT，TOT，代理等。在培训或推理时间不需要。
不需要人类的标记或人类对推理痕迹的验证。
不需要验证的微调模型，无论哪一步。
RLHF并不是严格要求的，只是DPO。
OpenAI正在使用深层RL来训练推理迹线，但我认为这是不需要的。自我播放是强大的，但可能会被DPO模仿。
Deep RL是以有效的方式生成数据的方法，但不是必需的，而只是从Openai先前的工作中保留。

理由

[P10]是最近的论文，该论文验证了我们使用自我生成的多转移数据以稍微逐步将模型推向自我纠正的建议。

项目目标

使用建议的方法生成推理迹线。
微调生成的推理轨迹上的模型。
评估性能并将其与现有型号的零拍摄，少量，婴儿床等进行比较。

其他项目：

与覆盆子的关键区别在于，它们专注于硬提示，而我们认为重复进行微调的渐进学习方法将对O1进行引导。
与G1的关键区别在于，它们仅专注于O1型行为，而无需重点如何将O1微调。
Anthropic和Google API对及时缓存的支持意味着可以便宜得多。 VLLM支持也有帮助的前缀缓存。

当前状态

该项目处于初始阶段。结果和比较将在可用时添加。

托多：

更困难的问题仍然是遥不可及的，O1-preiview只会得到约50％的时间（代码代理人获得90％的时间）：

简单的问题可靠地解决：

贡献

我们欢迎社区的贡献。请参阅我们的贡献.md文件，以获取有关如何参与的指南。

问题：

在应用中继续按钮会留下灰色的旧聊天，最好如果干净地开始
数字的计数仅在命中率继续后才出现，最好的话

关于作者

乔纳森·麦金尼（Jonathan McKinney）是H2O.AI的研究总监，其背景是天体物理学和机器学习的背景。他的经验包括：

UMD的前天体物理学教授[B1] [B2] [B3] [B4]
H2O.AI [B5] [B6]的汽车产品的7年经验
最近关于微调LLM，RAG和AI代理商（H2OGPT）的工作[B7] [B8]
查看我的其他项目，例如H2OGPT和及时工程

免责声明

该项目具有投机性，并基于有关OpenAI工作的公开信息。它不隶属于Openai或认可。

参考

[1] https://openai.com/index/learning-to-reason-with-llms/

[B1] https://umdphysics.umd.edu/about-us/news/department-news/697-jon-jon-mckinney-publishney-publishes-in-science-express.html

[B2] https://umdphysics.umd.edu/academics/courses/945-physics-420-principles-of-modern-physics.html

[B3] https://www.linkedin.com/in/jonathan-mckinney-32b0ab18/

[B4] https://scholar.google.com/citations？user = 5l3lfoyaaaaaj&hl=en

[B5] https://h2o.ai/company/team/makers/

[B6] https://h2o.ai/platform/ai-cloud/make/h2o-driverless-ai/

[B7] https://arxiv.org/abs/2306.08161

[B8] https://github.com/h2oai/h2ogpt

[P0]促使大语言模型引发推理的链条：https：//arxiv.org/abs/2201.11903

[P1]星：引导推理推理：https：//arxiv.org/abs/2203.14465

[P2]让我们逐步验证：https：//arxiv.org/abs/2305.20050

[p3]静态明星：语言模型可以在说话之前自我思考：https：//arxiv.org/abs/2403.09629

[p4]在说话之前先思考：带有暂停令牌的培训语言模型：https：//arxiv.org/abs/2310.02226

[p5]纳什从人类反馈中学习：https：//arxiv.org/abs/2312.00886

[P6]比例LLM测试时间计算比缩放模型参数更有效https://arxiv.org/abs/2408.03314

[P7]通过REAP增强LLM问题解决：反射，明确的问题解构和高级提示https://arxiv.org/abs/2409.09415

[P8]代理问：自主AI代理的高级推理和学习https://arxiv.org/abs//2408.07199

[P9]棋盘游戏缩放缩放法律https://arxiv.org/abs/2104.03113

[P10]培训语言模型通过强化学习https://arxiv.org/abs/2409.12917

open strawberry

开晶莓

安装

用法

霍拉马

背景

投机定义

生成推理轨迹

对推理轨迹进行微调

猜测

理由

项目目标

当前状态

贡献

关于作者

免责声明

参考

open webui

powsybl open rao

打开你的头脑

Gacha Strawberry最新版

开放式中庭

打开博客

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express