Скачать RepoSim - Загрузка исходного кода RepoSim

RepoSim

AI Исходный код

1.0.0

Скачать

Репозим

Подход к обнаружению семантически сходных хранилищ питона с использованием предварительно обученных языковых моделей.

О

Этот репозиторий содержит ноутбуки и сценарии, проведенные для нашего подхода для получения семантически похожих репозиториев Python с использованием предварительно обученных языковых моделей.

В настоящее время наша лучшая модель UnixCoder Fine-Tun для задачи поиска кода с помощью набора данных Advtest. Для оценки различных языковых моделей при сравнении сходства хранилища, пожалуйста, см.

Более подробную информацию о реализациях и приложениях нашего подхода можно найти в папке Scripts.

Приложения

Reposnipy - это нейронная поисковая система для дискуссии с аналогичными репозиториями Python на GitHub, работающей на репозиме . Пожалуйста, не стесняйтесь попробовать!

Структура каталога

RepoSim
├── LICENSE
├── README.md
├── data
│   ├── df2txt.py  # Convert PoolC dataset for clone detection fine-tuning script
│   ├── repo_topic.json # Topic-Repos mapping
│   └── repo_topic.py  # Script to select repos from topics
├── notebooks
│   ├── BiEncoder
│   │   ├── Embeddings_evaluation.ipynb  # Evaluations for comparing different language models
│   │   ├── RepoSim.ipynb  # Our approach's implementation
│   │   └── UnixCoder_C4_Evaluation.ipynb
│   └── CrossEncoder
│       ├── Clone_Detection_C4_Evaluation.ipynb
│       ├── HungarianAlgorithm.ipynb  # Cross-encoder approaches for repo similarity comparison
│       └── keonalgorithms-TheAlgorithmsPython.csv  # Evaluation results by ungarianAlgorithm.ipynb
└── scripts
    ├── LICENSE
    ├── PlayGround.ipynb  # For experimenting with repo embeddings
    ├── README.md
    ├── pipeline.py  # Our approach's implementation as a HuggingFace pipeline
    ├── repo_sim.py
    └── requirements.txt