agent handbook
1.0.0
? Awesome AI Agents
我始終相信開源,也熱愛分享在工作學習過程中對於Agent所有覺得有價值、有意思的知識點,並定期將其編寫成一篇篇博客,進而跟大家討論學習,共同進步。
也非常歡迎大家能夠一起貢獻PR 來不斷完善此博客,不斷完善,讓其成為一個真正的Agent Handbook。
強烈推薦大家先看吳恩達老師的這篇演講來入門了解Agent Workflow:
ORPO 提出了一個非常創新的方法:將模型對齊階段和SFT階段融合到一起,進而提升模型的訓練方法。
在SFT 階段,就直接將對齊的數據加入到訓練當中,進而在SFT 階段就已經實現了模型對齊的能力。
解决的问题:此論文旨在提升提供一個創建高質量指令跟隨數據集的方法,進而提高在不同方法中指令學習的能力。
此論文中是通過生成一個函數函數來檢測Response 內容是否正確,進而提升數據質量。
此論文的方法不算是很創新,可是從一定程度上告訴我們:數據質量的重要性。