Un enfoque para detectar repositorios de pitón semánticamente similares utilizando modelos de lenguaje previamente capacitados.
Este repositorio contiene los cuadernos y scripts realizados para nuestro enfoque para detectar repositorios de pitón semánticamente similares utilizando modelos de lenguaje previamente capacitados.
Actualmente, nuestro modelo de mejor rendimiento es unixcoder ajustado en la tarea de búsqueda de código con el conjunto de datos AdvTest. Para las evaluaciones de diferentes modelos de lenguaje en la comparación de similitud de repositorio, consulte este cuaderno de Jupyter: cuadernos/biencoder/increddings_evaluation.ipynb
Se pueden encontrar más detalles sobre las implementaciones y aplicaciones de nuestro enfoque en la carpeta Scripts.
Reposnipy es un motor de búsqueda neuronal para descubrir repositorios de pitón similares en GitHub, alimentado por Reposim . ¡No dude en intentarlo!
RepoSim
├── LICENSE
├── README.md
├── data
│ ├── df2txt.py # Convert PoolC dataset for clone detection fine-tuning script
│ ├── repo_topic.json # Topic-Repos mapping
│ └── repo_topic.py # Script to select repos from topics
├── notebooks
│ ├── BiEncoder
│ │ ├── Embeddings_evaluation.ipynb # Evaluations for comparing different language models
│ │ ├── RepoSim.ipynb # Our approach's implementation
│ │ └── UnixCoder_C4_Evaluation.ipynb
│ └── CrossEncoder
│ ├── Clone_Detection_C4_Evaluation.ipynb
│ ├── HungarianAlgorithm.ipynb # Cross-encoder approaches for repo similarity comparison
│ └── keonalgorithms-TheAlgorithmsPython.csv # Evaluation results by ungarianAlgorithm.ipynb
└── scripts
├── LICENSE
├── PlayGround.ipynb # For experimenting with repo embeddings
├── README.md
├── pipeline.py # Our approach's implementation as a HuggingFace pipeline
├── repo_sim.py
└── requirements.txt Distribuido bajo la licencia MIT. Vea LICENSE para más información.