RepoSim
1.0.0
미리 훈련 된 언어 모델을 사용하여 의미 적으로 유사한 파이썬 리포지토리를 감지하는 접근법.
이 저장소에는 미리 훈련 된 언어 모델을 사용하여 의미 적으로 유사한 파이썬 리포지토리를 감지하기위한 접근 방식을 위해 수행 된 노트와 스크립트가 포함되어 있습니다.
현재 가장 잘 수행되는 모델은 AdvTest DataSet을 사용하여 코드 검색 작업에 미세 조정 된 UNIXCODER입니다. 저장소 유사성 비교에 대한 다양한 언어 모델의 평가에 대해서는이 Jupyter Notebook : Notebooks/Biencoder/Embeddings_evaluation.ipynb를 참조하십시오.
접근 방식의 구현 및 응용 프로그램에 대한 자세한 내용은 Scripts 폴더에서 찾을 수 있습니다.
Reposnipy는 reposim 으로 구동되는 GitHub에서 유사한 Python 리포지토리를 디스커링하기위한 신경 검색 엔진입니다. 자유롭게 시도해보십시오!
RepoSim
├── LICENSE
├── README.md
├── data
│ ├── df2txt.py # Convert PoolC dataset for clone detection fine-tuning script
│ ├── repo_topic.json # Topic-Repos mapping
│ └── repo_topic.py # Script to select repos from topics
├── notebooks
│ ├── BiEncoder
│ │ ├── Embeddings_evaluation.ipynb # Evaluations for comparing different language models
│ │ ├── RepoSim.ipynb # Our approach's implementation
│ │ └── UnixCoder_C4_Evaluation.ipynb
│ └── CrossEncoder
│ ├── Clone_Detection_C4_Evaluation.ipynb
│ ├── HungarianAlgorithm.ipynb # Cross-encoder approaches for repo similarity comparison
│ └── keonalgorithms-TheAlgorithmsPython.csv # Evaluation results by ungarianAlgorithm.ipynb
└── scripts
├── LICENSE
├── PlayGround.ipynb # For experimenting with repo embeddings
├── README.md
├── pipeline.py # Our approach's implementation as a HuggingFace pipeline
├── repo_sim.py
└── requirements.txt MIT 라이센스에 따라 배포됩니다. 자세한 내용은 LICENSE 참조하십시오.