Descarga RepoSim - Descargar el código fuente de RepoSim

RepoSim

Código Fuente de IA

1.0.0

Descargar

Reposim

Un enfoque para detectar repositorios de pitón semánticamente similares utilizando modelos de lenguaje previamente capacitados.

Acerca de

Este repositorio contiene los cuadernos y scripts realizados para nuestro enfoque para detectar repositorios de pitón semánticamente similares utilizando modelos de lenguaje previamente capacitados.

Actualmente, nuestro modelo de mejor rendimiento es unixcoder ajustado en la tarea de búsqueda de código con el conjunto de datos AdvTest. Para las evaluaciones de diferentes modelos de lenguaje en la comparación de similitud de repositorio, consulte este cuaderno de Jupyter: cuadernos/biencoder/increddings_evaluation.ipynb

Se pueden encontrar más detalles sobre las implementaciones y aplicaciones de nuestro enfoque en la carpeta Scripts.

Aplicaciones

Reposnipy es un motor de búsqueda neuronal para descubrir repositorios de pitón similares en GitHub, alimentado por Reposim . ¡No dude en intentarlo!

Estructura de directorio

RepoSim
├── LICENSE
├── README.md
├── data
│   ├── df2txt.py  # Convert PoolC dataset for clone detection fine-tuning script
│   ├── repo_topic.json # Topic-Repos mapping
│   └── repo_topic.py  # Script to select repos from topics
├── notebooks
│   ├── BiEncoder
│   │   ├── Embeddings_evaluation.ipynb  # Evaluations for comparing different language models
│   │   ├── RepoSim.ipynb  # Our approach's implementation
│   │   └── UnixCoder_C4_Evaluation.ipynb
│   └── CrossEncoder
│       ├── Clone_Detection_C4_Evaluation.ipynb
│       ├── HungarianAlgorithm.ipynb  # Cross-encoder approaches for repo similarity comparison
│       └── keonalgorithms-TheAlgorithmsPython.csv  # Evaluation results by ungarianAlgorithm.ipynb
└── scripts
    ├── LICENSE
    ├── PlayGround.ipynb  # For experimenting with repo embeddings
    ├── README.md
    ├── pipeline.py  # Our approach's implementation as a HuggingFace pipeline
    ├── repo_sim.py
    └── requirements.txt