Code officiel pour l'article "Sanskritshala: une boîte à outils NLP sanscrit neuronale avec interface Web à des fins pédagogiques et d'annotation". Si vous utilisez ce code, veuillez citer notre papier.
Vous pouvez interagir avec la plate-forme Web de notre Sanskritshala: Link . Nous vous encourageons à vérifier notre vidéo de démonstration pour vous familiariser avec notre plateforme.
Vous pouvez trouver plus de détails sur les bases de code dans le dossier Neural Modules pour le segmentaion de mots, le marquage morphologique, l'analyse de dépèche et la tâche d'identification du type de composé.
Vous devez d'abord installer les modules individuels de votre machine comme indiqué dans la section ci-dessus. Vous n'avez pas besoin d'avoir un GPU à Oder pour faire fonctionner ces systèmes pré-entraînés sur votre machine locale. Vous pouvez trouver plus de détails sur la façon de déployer la boîte à outils sur votre machine locale dans le dossier SanShala-Web .
Saneval est une boîte à outils pour évaluer la qualité des intérêts sanskrit. Nous évaluons leur pouvoir de généralisation en les utilisant comme caractéristiques sur un ensemble large et diversifié de tâches. Nous incluons une suite de 4 tâches intrinsèques qui évaluent quelles propriétés linguistiques sont codées dans les incorporations de mots. Notre objectif est de faciliter l'étude et le développement de représentations de mots à taille générale pour le sanskrit. Vous pouvez trouver plus de détails sur les bases de code dans le dossier EvalSan .
SLP1 pour nos données. Vous pouvez le changer en un autre schéma en utilisant ce code.| Tâche | Métrique | #dev | #test |
|---|---|---|---|
| Parenté | F-score | 4.5k | 9K |
| Similarité | Précision | n / A | 3K |
| Catégorisation syntaxtique | Pureté | n / A | 1.1k |
| Catégorisation sémantique | Pureté | n / A | 150 |
| Analogie syntaxtique | Précision | n / A | 10k |
| Analogie sémantique | Précision | n / A | 6.4k |
README.md est donné pour chaque modèle.models dans le chemin du répertoire parent.EvalSan/evaluations/Intrinsic/ Path. Ces vecteurs sont utilisés dans le script d'évaluation.EvalSan/LCM . Pour plus de détails, veuillez visiter ce lien. Si vous utilisez notre outil, nous apprécierions si vous citez notre papier:
@misc{Sandhan_SanskritShala,
doi = {10.48550/ARXIV.2302.09527},
url = {https://arxiv.org/abs/2302.09527},
author = {Sandhan, Jivnesh and Agarwal, Anshul and Behera, Laxmidhar and Sandhan, Tushar and Goyal, Pawan},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {SanskritShala: A Neural Sanskrit NLP Toolkit with Web-Based Interface for Pedagogical and Annotation Purposes},
publisher = {arXiv},
year = {2023},
copyright = {Creative Commons Attribution 4.0 International}
}
Ce projet est sous licence en vertu des termes de l' Apache license 2.0 .
Nous aimerions dire des remerciements à tous ceux qui nous ont aidés à créer les différents modèles neuronaux pour le sanskritshala.