Подход к обнаружению семантически сходных хранилищ питона с использованием предварительно обученных языковых моделей.
Этот репозиторий содержит ноутбуки и сценарии, проведенные для нашего подхода для получения семантически похожих репозиториев Python с использованием предварительно обученных языковых моделей.
В настоящее время наша лучшая модель UnixCoder Fine-Tun для задачи поиска кода с помощью набора данных Advtest. Для оценки различных языковых моделей при сравнении сходства хранилища, пожалуйста, см.
Более подробную информацию о реализациях и приложениях нашего подхода можно найти в папке Scripts.
Reposnipy - это нейронная поисковая система для дискуссии с аналогичными репозиториями Python на GitHub, работающей на репозиме . Пожалуйста, не стесняйтесь попробовать!
RepoSim
├── LICENSE
├── README.md
├── data
│ ├── df2txt.py # Convert PoolC dataset for clone detection fine-tuning script
│ ├── repo_topic.json # Topic-Repos mapping
│ └── repo_topic.py # Script to select repos from topics
├── notebooks
│ ├── BiEncoder
│ │ ├── Embeddings_evaluation.ipynb # Evaluations for comparing different language models
│ │ ├── RepoSim.ipynb # Our approach's implementation
│ │ └── UnixCoder_C4_Evaluation.ipynb
│ └── CrossEncoder
│ ├── Clone_Detection_C4_Evaluation.ipynb
│ ├── HungarianAlgorithm.ipynb # Cross-encoder approaches for repo similarity comparison
│ └── keonalgorithms-TheAlgorithmsPython.csv # Evaluation results by ungarianAlgorithm.ipynb
└── scripts
├── LICENSE
├── PlayGround.ipynb # For experimenting with repo embeddings
├── README.md
├── pipeline.py # Our approach's implementation as a HuggingFace pipeline
├── repo_sim.py
└── requirements.txt Распределено по лицензии MIT. Смотрите LICENSE для получения дополнительной информации.