نهج للكشف عن مستودعات بيثون مماثلة دلالة باستخدام نماذج اللغة التي تم تدريبها مسبقًا.
يحتوي هذا المستودع على دفاتر الملاحظات والبرامج النصية التي أجريت لنهجنا لاكتشاف مستودعات Python المماثلة بشكل دلالي باستخدام نماذج اللغة التي تم تدريبها مسبقًا.
حاليا أفضل طراز أداء لدينا هو UnixCoder تم ضبطه على مهمة البحث عن التعليمات البرمجية مع مجموعة بيانات AdvTest. لتقييم نماذج اللغة المختلفة على مقارنة تشابه المستودع ، يرجى الرجوع إلى دفتر الملاحظات jupyter هذا: دفاتر/رفاهية Biencoder/inmbeddings_evaluation.ipynb
يمكن العثور على مزيد من التفاصيل حول تطبيقات نهجنا والتطبيقات ضمن مجلد البرامج النصية.
Reposnipy هو محرك بحث عصبي لتخليص مستودعات Python مماثلة على Github ، مدعوم من reposim . لا تتردد في تجربتها!
RepoSim
├── LICENSE
├── README.md
├── data
│ ├── df2txt.py # Convert PoolC dataset for clone detection fine-tuning script
│ ├── repo_topic.json # Topic-Repos mapping
│ └── repo_topic.py # Script to select repos from topics
├── notebooks
│ ├── BiEncoder
│ │ ├── Embeddings_evaluation.ipynb # Evaluations for comparing different language models
│ │ ├── RepoSim.ipynb # Our approach's implementation
│ │ └── UnixCoder_C4_Evaluation.ipynb
│ └── CrossEncoder
│ ├── Clone_Detection_C4_Evaluation.ipynb
│ ├── HungarianAlgorithm.ipynb # Cross-encoder approaches for repo similarity comparison
│ └── keonalgorithms-TheAlgorithmsPython.csv # Evaluation results by ungarianAlgorithm.ipynb
└── scripts
├── LICENSE
├── PlayGround.ipynb # For experimenting with repo embeddings
├── README.md
├── pipeline.py # Our approach's implementation as a HuggingFace pipeline
├── repo_sim.py
└── requirements.txt موزعة تحت رخصة معهد ماساتشوستس للتكنولوجيا. انظر LICENSE لمزيد من المعلومات.