Descarga de PPOCoder - Descargar el código fuente PPOCoder

PPOCoder

Código Fuente de IA

1.0.0

Descargar

Ppocoder

Implementación oficial de la generación de código basada en la ejecución utilizando el aprendizaje de refuerzo profundo

Descripción general

La utilización de los modelos de lenguaje de programación (PL), previamente en los corpus de código a gran escala, como medio para automatizar procesos de ingeniería de software, ha demostrado un potencial considerable en la optimización de varias tareas de generación de código, como la finalización del código, la traducción de código y la síntesis del programa. Sin embargo, los enfoques actuales se basan principalmente en objetivos supervisados de ajuste fino tomados de la generación de texto, descuidando las características específicas a nivel de secuencia del código, incluida, entre otros, compilabilidad, así como corrección sintáctica y funcional. Para abordar esta limitación, proponemos PPOCoder , un nuevo marco para la generación de códigos que combina modelos PL pretrinidos con el aprendizaje de refuerzo profundo de optimización de políticas proximales (PPO) y emplea la retroalimentación de ejecución como fuente externa de conocimiento en la optimización del modelo. PPOCoder es transferible a través de diferentes tareas de generación de código y PLS.

Descripción general del ppocoder con modelos de actor y crítico : la acción se muestrean a partir de la política basada en los datos de origen dados $ x $ (NL o PL). Luego, se obtiene una recompensa para cada acción para guiar y controlar las actualizaciones de políticas. La función de recompensa se compone de cuatro elementos: (a) retroalimentación del compilador; (b) puntuación de coincidencia sintáctica basada en ASTS; (c) puntaje de coincidencia semántica basada en DFGS; y (d) penalización de divergencia de KL entre la política activa y el modelo de referencia previa a la referencia. El modelo de crítico estima el valor basado en la recompensa obtenida y PPOCoder se optimizará con PPO, lo que tiene en cuenta tanto el valor como la optimización de la política.

Instalación del medio ambiente

Para ejecutar el código, instale las dependencias en requisitos.txt.

 pip install -r requirements.txt

Conjuntos de datos

Finetune/evaluamos modelos en los siguientes puntos de referencia del conjunto de datos principales para diferentes tareas de generación de código:

CodeSearchnet (CSN) está disponible aquí
Xlcost está disponible aquí
Las aplicaciones están disponibles aquí
MBPP está disponible aquí

Preprocesamos los datos y construimos secuencias de entrada/salida de la misma manera que se describe en los documentos de referencia originales. Descomprima y coloque todos los puntos de referencia en la carpeta data .

Correr

Hemos creado el script run.sh para ejecutar el modelo PL basado en PPO ajustado en función de la señal del compilador. Para ejecutar el script para diferentes tareas de generación de código, configure los siguientes parámetros:

Parámetros	Descripción	Valores de ejemplo
`l1`	Lenguaje fuente	Java
`l2`	Lengua de llegada	CPP
`asp`	Tamaño del espacio de acción	5
`ns`	Número de muestras sintéticas	10
`data_path`	Camino a las muestras de datos originales	datos/xlcost/java-cpp/
`output_path`	Ruta para guardar generaciones y salidas	saved_results/java-cpp/
`baseline_output_dir`	Ruta a las salidas Base Finetuned Codet5 (antes de RL)	líneas de base/saved_models/java-cpp/
`load_model_path`	Ruta al modelo Base Finetuned Codet5 (antes de RL) para cada tarea aguas abajo	líneas de base/saved_models/java-cpp/pytorch_model.bin
`max_source_length`	MAXMIM Longitud de la fuente	400
`max_target_length`	MAXMIM Longitud del objetivo	400
`train_batch_size`	Tamaño de lote de entrenamiento	32
`test_batch_size`	Prueba de tamaño por lotes	48
`lr`	Tasa de aprendizaje	1e-6
`kl_coef`	Coeficiente inicial de la penalización de divergencia de KL en la recompensa	0.1
`kl_target`	Objetivo del KL que controla adaptativamente el coeficiente KL	1
`vf_coef`	Coeficiente del error VF en la pérdida de PPO	1e-3
`run`	Índice de la ejecución	1

Run run.sh guarda programas generados en un archivo .txt y el modelo pesa al final de cada época.

Citación

Si encuentra útil el papel o el repositorio, cíquelo con

 @article {shojaee2023ppocoder,
  title = {Generación de código basada en ejecución utilizando el aprendizaje de refuerzo profundo},
  Autor = {Shojaee, Parshin y Jain, Aneesh y Tipirneni, Sindhu y Reddy, Chandan K},
  Journal = {arxiv preprint arxiv: 2301.13816},
  año = {2023}
}

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-10
tamaño 8.39MB
Proviene de Github

Aplicaciones relacionadas

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo