很棒的深色R1資源
- [?鏈接] - DeepSeek-ai/deepseek-r1:技術報告
生殖
- [?鏈接] - huggingface/open-r1:DeepSeek-R1的完全開放繁殖
- [?鏈接] - jiayi-pan/tinyzero
- [?鏈接] - hkust-nlp/simplerl-resason:這是對小型模型的DeepSeek-R1-Zero和DeepSeek-R1培訓的複製品,數據有限
相關資源
- R1+十四行詩以低成本的成本粉碎基準: DeepSeek R1與十四行詩配對的Aider Polyglot基準測試的基準為64% ,表現優於O1 ,而成本降低了14倍。用戶強調了其在頂級大學的MIT許可證和收養。
- R1重新延伸提升QWEN-1.5B :Mobius Labs的Redistill Ed R1變體超過原始,併計劃擴展到其他架構。
- R1的競技場排名SPARD GPU分配理論:R1在LMARENA中排名第3 ,與O1的編碼性能相匹配,價格便宜20倍,這是由於備用NVIDIA H100使用和中國政府支持的謠言所推動。
- [?鏈接] - Atfortes/Awesome-llm - 理論:LLMS中的推理:論文和資源,包括思考鏈,OpenAi O1和DeepSeek-R1?
- [?鏈接] - 內森·蘭伯特(Nathan Lambert):DeepSeek R1複製O1的食譜和推理LMS的未來
發現
發射
當我們說“ R1”時,這是模棱兩可的。 DeepSeek實際上丟棄了8種R1型號-2個“完整”型號,並在開放型號上進行了6種蒸餾:
- 從QWEN 2.5:用DeepSeek-R1策劃的800K樣品進行填充,以1.5b,7b,14b和32b
- 來自Llama 3.1 8b基礎:DeepSeek-R1-Distill-Lalama-8B
- 來自Llama3.3-70B-Instruct:DeepSeek-R1-Distill-Lalama-70b
- 以及DeepSeek-R1和DeepSeek-R1-Zero,類似於DeepSeek V3的全尺寸的671B MOE型號。令人驚訝的是,麻省理工學院已獲得許可而不是自定義許可,包括明確的鑑定和蒸餾
發射中的其他知名人士:
- 定價(每百萬個令牌):14美分輸入(緩存命中率),55美分輸入(緩存失誤)和219美分的輸出。相比之下,在750美分的輸入(緩存命中),1500美分輸入(緩存失誤),6000美分的輸出相比。比O1便宜27倍。
- 解決O1 Blogpost中的每個問題。每個人。
- 可以在Ollama上運行蒸餾型
- 可以很好地編寫Manim代碼
紙上的驚喜:
該過程是:
- V3基礎→R1零(使用GRPO-又稱正確性和样式結果的獎勵 - 無花哨的PRM/MCT/RMS)
- R1零→R1燃燒冷啟動(從R1零的Distil長床樣品)
- R1冷啟動→帶有RL的R1推理器(專注於語言一致性 - 產生可讀的推理)
- R1推理→R1 Finetuned-Reasoner(生成600K:多響應採樣,僅保留正確的樣本(使用Prev規則),然後使用V3作為法官:過濾掉混合語言,長段落和代碼)
- R1指導者→R1對準(使用GRPO的有益和無害的平衡推理)
可視化:

監督數據,流程獎勵模型和MCT進行了 - 不工作

- 但是,他們確實使用了DeepSeekmath(由DPO作者挑戰)的GRPO作為“ RL框架,以提高推理中的模型性能”,“在“成千上萬的RL步驟”之後,推理(例如在上下文中的背面跟踪)“自然而然地出現” - 不是很有名的O1縮放圖,而是一個緊密的表情。

- 使用“ aha moments”作為樞軸令牌,通常以讀者不友好的方式混合語言
- R1在O1公告後不到一個月就開始培訓
- R1蒸餾非常有效,這給了我們這一瘋狂的報價:“ DeepSeek-R1-Distill-Qwen- 1.5b的表現優於GPT-4O和Claude-3.5-sonnet在數學基准上,AIME的28.9%,而數學上的83.9%,這甚至不推動蒸餾蒸餾到其限制上。
- 這不僅是對一個小型模型的RL調整更有效:“與小型模型上通過RL發現的推理模式相比,較大模型的推理模式可以蒸餾成較小的模型。”又名“ SFT勝利”
Jiayi-Pan(TinyZero):
最有趣的新發現是,我們昨天涵蓋的蒸餾效果的下限-1.5B與您一樣低。 rlcot推理本身就是新興的財產。
RL技術(PPO,DeepSeek的grpo或Prime)並不重要
從指示模型開始收斂的速度更快,但兩者都結束相同(根據R1紙觀測)
