Kode resmi untuk makalah "Sanskritshala: Perangkat NLP Sanskerta saraf dengan antarmuka berbasis web untuk tujuan pedagogis dan anotasi". Jika Anda menggunakan kode ini, silakan mengutip kertas kami.
Anda dapat berinteraksi dengan platform berbasis web Sanskritshala kami: Link . Kami mendorong Anda untuk memeriksa video demo kami untuk terbiasa dengan platform kami.
Anda dapat menemukan lebih banyak detail basis kode dalam folder Neural Modules untuk segementaion kata, penandaan morfologis, penguraian depedensi dan tugas identifikasi jenis senyawa.
Pertama, Anda perlu menginstal masing -masing modul pada mesin Anda seperti yang diinstruksikan di bagian di atas. Anda tidak perlu memiliki GPU di Oder untuk membuat sistem pretrain ini bekerja pada mesin lokal Anda. Anda mungkin menemukan detail lebih lanjut tentang cara menggunakan toolkit di mesin lokal Anda di folder SanShala-Web .
Saneval adalah toolkit untuk mengevaluasi kualitas embeddings Sanskerta. Kami menilai kekuatan generalisasi mereka dengan menggunakannya sebagai fitur pada serangkaian tugas yang luas dan beragam. Kami menyertakan rangkaian 4 tugas intrinsik yang mengevaluasi sifat linguistik apa yang dikodekan dalam embeddings kata. Tujuan kami adalah untuk meringankan penelitian dan pengembangan representasi kata ukuran tetap untuk Sanskerta. Anda dapat menemukan lebih banyak detail basis kode di folder EvalSan .
SLP1 untuk data kami. Anda dapat mengubahnya ke skema lain menggunakan kode ini.| Tugas | Metrik | #dev | #tes |
|---|---|---|---|
| Keterkaitan | F-score | 4.5k | 9k |
| Kesamaan | Ketepatan | na | 3k |
| Sintaksis kategorisasi | Kemurnian | na | 1.1k |
| Kategorisasi semantik | Kemurnian | na | 150 |
| Sintaksis analogi | Ketepatan | na | 10K |
| Analogi semantik | Ketepatan | na | 6.4k |
README.md diberikan untuk setiap model.models di jalur direktori induk.EvalSan/evaluations/Intrinsic/ jalur. Vektor ini digunakan dalam skrip evaluasi.EvalSan/LCM . Untuk detail lebih lanjut silakan kunjungi tautan ini. Jika Anda menggunakan alat kami, kami akan menghargai jika Anda mengutip kertas kami:
@misc{Sandhan_SanskritShala,
doi = {10.48550/ARXIV.2302.09527},
url = {https://arxiv.org/abs/2302.09527},
author = {Sandhan, Jivnesh and Agarwal, Anshul and Behera, Laxmidhar and Sandhan, Tushar and Goyal, Pawan},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {SanskritShala: A Neural Sanskrit NLP Toolkit with Web-Based Interface for Pedagogical and Annotation Purposes},
publisher = {arXiv},
year = {2023},
copyright = {Creative Commons Attribution 4.0 International}
}
Proyek ini dilisensikan berdasarkan ketentuan Apache license 2.0 .
Kami ingin mengucapkan terima kasih kepada semua orang yang membantu kami membuat model saraf yang berbeda untuk Sanskritshala.