RepoSim 다운로드 - RepoSim 소스 코드 다운로드

RepoSim

AI 소스 코드

1.0.0

다운로드

reposim

미리 훈련 된 언어 모델을 사용하여 의미 적으로 유사한 파이썬 리포지토리를 감지하는 접근법.

에 대한

이 저장소에는 미리 훈련 된 언어 모델을 사용하여 의미 적으로 유사한 파이썬 리포지토리를 감지하기위한 접근 방식을 위해 수행 된 노트와 스크립트가 포함되어 있습니다.

현재 가장 잘 수행되는 모델은 AdvTest DataSet을 사용하여 코드 검색 작업에 미세 조정 된 UNIXCODER입니다. 저장소 유사성 비교에 대한 다양한 언어 모델의 평가에 대해서는이 Jupyter Notebook : Notebooks/Biencoder/Embeddings_evaluation.ipynb를 참조하십시오.

접근 방식의 구현 및 응용 프로그램에 대한 자세한 내용은 Scripts 폴더에서 찾을 수 있습니다.

응용 프로그램

Reposnipy는 reposim 으로 구동되는 GitHub에서 유사한 Python 리포지토리를 디스커링하기위한 신경 검색 엔진입니다. 자유롭게 시도해보십시오!

디렉토리 구조

RepoSim
├── LICENSE
├── README.md
├── data
│   ├── df2txt.py  # Convert PoolC dataset for clone detection fine-tuning script
│   ├── repo_topic.json # Topic-Repos mapping
│   └── repo_topic.py  # Script to select repos from topics
├── notebooks
│   ├── BiEncoder
│   │   ├── Embeddings_evaluation.ipynb  # Evaluations for comparing different language models
│   │   ├── RepoSim.ipynb  # Our approach's implementation
│   │   └── UnixCoder_C4_Evaluation.ipynb
│   └── CrossEncoder
│       ├── Clone_Detection_C4_Evaluation.ipynb
│       ├── HungarianAlgorithm.ipynb  # Cross-encoder approaches for repo similarity comparison
│       └── keonalgorithms-TheAlgorithmsPython.csv  # Evaluation results by ungarianAlgorithm.ipynb
└── scripts
    ├── LICENSE
    ├── PlayGround.ipynb  # For experimenting with repo embeddings
    ├── README.md
    ├── pipeline.py  # Our approach's implementation as a HuggingFace pipeline
    ├── repo_sim.py
    └── requirements.txt