PPOCoder下載PPOCoder源代碼下載

PPOCoder

Ai源碼

1.0.0

下載

ppocoder

使用深入的強化學習的官方實施基於執行的代碼生成

概述

在大規模代碼語料庫中審議的編程語言（PL）模型的利用，作為自動化軟件工程流程的一種手段，在簡化各種代碼生成任務（例如代碼完成，代碼翻譯和程序合成）方面具有巨大的潛力。但是，當前的方法主要依賴於從文本生成中藉來的監督微調目標，忽略了代碼的特定序列級特徵，包括但不限於彙編以及句法和功能正確性。為了解決這一限制，我們提出了PPOCODER ，這是一個新的代碼生成框架，將預驗證的PL模型與近端策略優化（PPO）深入強化學習結合在一起，並採用執行反饋作為模型優化中的知識來源。 PPOCODER可以在不同的代碼生成任務和PLS中轉移。

帶有演員和評論家模型的PPOCODER概述：根據給定的源數據，該動作是從策略中抽樣的 $ x $ （NL或PL）。然後，為指導和控制政策更新的每個操作都會獲得獎勵。獎勵函數由四個要素組成：（a）編譯器反饋；（b）基於AST的句法匹配分數；（c）基於DFGS的語義匹配分數；（d）主動政策與參考預估計模型之間的KL-Divergence懲罰。評論家模型根據獲得的獎勵估算價值，PPOCODER將通過PPO進行優化，該PPO考慮了價值和策略優化。

環境安裝

要運行代碼，請將依賴項安裝在unignts.txt中。

 pip install -r requirements.txt

數據集

我們對不同代碼生成任務的以下主要數據集基准進行了Finetune/評估模型：

CodesearchNet（CSN）可在此處使用
Xlcost可在此處使用
應用程序可在此處使用
MBPP可在此處使用

我們以與原始基準論文中概述的方式相同的方式預處理數據並構建輸入/輸出序列。解壓縮並將所有基準放在data文件夾中。

跑步

我們創建了run.sh腳本以基於編譯器信號執行基於PPO的PL模型微調。要運行不同代碼生成任務的腳本，請配置以下參數：

參數	描述	示例值
`l1`	源語言	爪哇
`l2`	目標語言	CPP
`asp`	動作空間大小	5
`ns`	合成樣品的數量	10
`data_path`	原始數據樣本的路徑	數據/XLCOST/JAVA-CPP/
`output_path`	保存世代和輸出的路徑	saved_results/java-cpp/
`baseline_output_dir`	基礎固定的codet5（RL之前）輸出的路徑	基線/saved_models/java-cpp/
`load_model_path`	對於每個下游任務	基線/saved_models/java-cpp/pytorch_model.bin
`max_source_length`	maxmim源長度	400
`max_target_length`	MAXMIM目標長度	400
`train_batch_size`	培訓批量大小	32
`test_batch_size`	測試批次尺寸	48
`lr`	學習率	1E-6
`kl_coef`	獎勵中KL DiverGunty的初始係數	0.1
`kl_target`	KL的靶標能夠自適應控制KL係數	1
`vf_coef`	PPO丟失中VF誤差的係數	1E-3
`run`	運行索引	1

運行run.sh將生成的程序保存在.txt文件和每個時期末尾的模型權重。

引用

如果您發現紙張或存儲庫有用，請引用

@article {shojaee2023ppocoder，
  title = {基於執行的代碼生成使用深鋼筋學習}，
  作者= {Shojaee，Parshin和Jain，Aneesh和Tipirneni，Sindhu和Reddy，Chandan K}，
  日記= {arxiv預印arxiv：2301.13816}，
  年= {2023}
}

展開

附加信息

版本 1.0.0
類型 Ai源碼
更新時間 2025-09-10
大小 8.39MB
來自於 Github

相關應用

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
ML stack

Ai源碼

1.0.0
awesome free chatgpt

Ai源碼

1.0.0
pywin_contextmenu

Ai源碼

Version update
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部