Téléchargement de PPOCoder - Téléchargement du code source PPOCoder

PPOCoder

Code Source AI

1.0.0

Télécharger

Ppocorateur

Implémentation officielle de la génération de code basée sur l'exécution à l'aide d'un apprentissage en renforcement profond

Aperçu

L'utilisation des modèles de langage de programmation (PL), pré-entraînées sur des corpus de code à grande échelle, comme moyen d'automatiser les processus d'ingénierie logicielle a démontré un potentiel considérable dans la rationalisation de diverses tâches de génération de code telles que l'achèvement du code, la traduction du code et la synthèse du programme. Cependant, les approches actuelles reposent principalement sur des objectifs de réglage fin supervisés empruntés à la génération de texte, négligeant des caractéristiques spécifiques au niveau de la séquence du code, y compris, mais sans s'y limiter, la compilabilité ainsi que l'exactitude syntaxique et fonctionnelle. Pour lutter contre cette limitation, nous proposons PpoDer , un nouveau cadre de génération de code qui combine des modèles PL pré-étendus avec un apprentissage en renforcement en profondeur de la politique proximale (PPO) et utilise la rétroaction d'exécution comme source externe de connaissances dans l'optimisation du modèle. PPOCODER est transférable sur différentes tâches de génération de code et PLS.

Présentation du ppocodeur avec des modèles d'acteur et de critique : l'action est échantillonnée à partir de la politique basée sur les données source données $ x $ (NL ou PL). Ensuite, une récompense est obtenue pour chaque action pour guider et contrôler les mises à jour de la politique. La fonction de récompense est composée de quatre éléments: (a) rétroaction du compilateur; (b) score de correspondance syntaxique basé sur les AST; (c) score de correspondance sémantique basé sur les DFG; et (d) la pénalité de divergence KL entre la politique active et le modèle de référence pré-entraîné. Le modèle de critique estime que la valeur basée sur la récompense obtenue et le ppocodeur seront optimisées avec PPO, qui prend en compte la valeur et l'optimisation des politiques.

Installation de l'environnement

Pour exécuter le code, installez les dépendances dans les exigences.txt.

 pip install -r requirements.txt

Ensembles de données

Nous finettune / évaluons les modèles sur les principaux benchmarks de données suivants pour différentes tâches de génération de code:

CodesearchNet (CSN) est disponible ici
XlCost est disponible ici
Les applications sont disponibles ici
MBPP est disponible ici

Nous préparons les données et construisons des séquences d'entrée / sortie de la même manière que celles décrites dans les papiers de référence d'origine. Décompressez et placez tous les repères dans le dossier data .

Courir

Nous avons créé le script run.sh pour exécuter un réglage fin du modèle PPO basé sur PPO basé sur le signal du compilateur. Pour exécuter le script pour différentes tâches de génération de code, configurez les paramètres suivants:

Paramètres	Description	Exemples de valeurs
`l1`	Langue source	Java
`l2`	Langue cible	cpp
`asp`	Taille de l'espace d'action	5
`ns`	Nombre d'échantillons synthétiques	10
`data_path`	Chemin vers les échantillons de données d'origine	data / xlcost / java-cpp /
`output_path`	Chemin pour enregistrer les générations et les sorties	Saved_results / java-cpp /
`baseline_output_dir`	Chemin vers la base Finetuned Codet5 (avant RL)	Bâlelines / Saved_Models / Java-Cpp /
`load_model_path`	Chemin vers le modèle de Codet5 Finetuned de base (avant RL) pour chaque tâche en aval	Bâlelines / Saved_Models / Java-Cpp / Pytorch_Model.bin
`max_source_length`	Longueur de source maxmim	400
`max_target_length`	Longueur cible maxmim	400
`train_batch_size`	Taille du lot d'entraînement	32
`test_batch_size`	Tester la taille du lot	48
`lr`	Taux d'apprentissage	1E-6
`kl_coef`	Coefficient initial de la pénalité de divergence KL dans la récompense	0.1
`kl_target`	Cible du KL qui contrôle de manière adaptative le coefficient KL	1
`vf_coef`	Coefficient de l'erreur VF dans la perte PPO	1E-3
`run`	Index de la course	1

L'exécution run.sh enregistre des programmes générés dans un fichier .txt et le modèle ponde à la fin de chaque époque.

Citation

Si vous trouvez le papier ou le repo utile, veuillez le citer avec

 @article {shojaee2023ppocoder,
  title = {Génération de code basée sur l'exécution à l'aide d'un apprentissage en renforcement profond},
  auteur = {Shojaee, Parshin et Jain, Aneesh et Tipirneni, Sindhu et Reddy, Chandan K},
  journal = {arXiv preprint arXiv: 2301.13816},
  année = {2023}
}

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-09-10
taille 8.39MB
Provenant de Github

Applications connexes

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout