DPO
1.0.0
本倉庫實現DPO算法,由於個人硬件有限強化的模型是qwen_0.5B, 使用lora調節模型參數。
data/train_data.json 此數據是自己造的,僅用於學習使用。雖然數據就2條,我微調了3個epochs,效果還行。後面會附帶訓練後的結果
model/model.py 這裡需要優化的策略模型model/reference_model.py 參考模型,其實就是原始的qwen模型
這裡主要有兩個文件,utils/data_load.py加載數據
輸入的問題:操作說明:為一個關於回收的網站設計一個標誌。 instruction:以下是描述任務的說明。編寫適當地完成請求的響應。
尊敬的用戶,感謝您對我們的支持!為了更好地滿足您的需求,我們為您設計了一個標誌。 首先,我們需要確定這個標誌的主題是什麼。如果它是一個環保主題,我們可以選擇綠色、藍色或者白色等顏色;如果它是一個回收主題,我們可以選擇回收的顏色,如黑色、灰色或棕色等。 然後,我們需要考慮標誌的大小和位置。一般來說,標誌應該在網站的中心位置,以便於用戶快速找到並使用。 接下來,我們需要考慮標誌的設計元素。我們可以使用一些簡單的線條來表示回收,比如回收的形狀、顏色等。同時,我們也可以添加一些細節,比如回收的符號或者回收的圖案,以增加標誌的視覺吸引力。 最後,我們需要確保標誌的清晰度和易讀性。我們應該盡量避免使用過於復雜的字體或者圖形,以免讓用戶感到困惑。 希望這些建議能幫助您設計出一個成功的標誌。如果您有任何問題,歡迎隨時向我提問。
回复:感謝您的創意!我們正在努力創建一個環保且可持續的設計,以鼓勵人們採取行動來保護環境。我們可以使用綠色植物、藍色或白色作為背景色,並在標誌上添加一些可回收的元素,如回收紙板或瓶子。