DPO下載 - DPO源代碼下載

DPO

Ai源碼

1.0.0

下載

DPO 算法手動實現

博客地址：https://zhuanlan.zhihu.com/p/702774357

項目描述：

本倉庫實現DPO算法，由於個人硬件有限強化的模型是qwen_0.5B, 使用lora調節模型參數。

代碼組織解釋

訓練數據

data/train_data.json 此數據是自己造的,僅用於學習使用。雖然數據就2條，我微調了3個epochs，效果還行。後面會附帶訓練後的結果

model 文件

model/model.py 這裡需要優化的策略模型model/reference_model.py 參考模型，其實就是原始的qwen模型

utils 文件

這裡主要有兩個文件，utils/data_load.py加載數據

config.py 配置文件

dpo.py DPO核心實現

main.py 訓練代碼

inference.py 訓練完成之後，使用該文件預測效果

微調後效果比對

輸入的問題：操作說明：為一個關於回收的網站設計一個標誌。 instruction：以下是描述任務的說明。編寫適當地完成請求的響應。

微調之前的效果

尊敬的用戶，感謝您對我們的支持！為了更好地滿足您的需求，我們為您設計了一個標誌。首先，我們需要確定這個標誌的主題是什麼。如果它是一個環保主題，我們可以選擇綠色、藍色或者白色等顏色；如果它是一個回收主題，我們可以選擇回收的顏色，如黑色、灰色或棕色等。然後，我們需要考慮標誌的大小和位置。一般來說，標誌應該在網站的中心位置，以便於用戶快速找到並使用。接下來，我們需要考慮標誌的設計元素。我們可以使用一些簡單的線條來表示回收，比如回收的形狀、顏色等。同時，我們也可以添加一些細節，比如回收的符號或者回收的圖案，以增加標誌的視覺吸引力。最後，我們需要確保標誌的清晰度和易讀性。我們應該盡量避免使用過於復雜的字體或者圖形，以免讓用戶感到困惑。希望這些建議能幫助您設計出一個成功的標誌。如果您有任何問題，歡迎隨時向我提問。