SanskritShala Téléchargement - SanskritShala Téléchargement du code source

SanskritShala

Données du site Web

1.0.0

Télécharger

Sanskritshala: une boîte à outils NLP sanscrit neurale

Code officiel pour l'article "Sanskritshala: une boîte à outils NLP sanscrit neuronale avec interface Web à des fins pédagogiques et d'annotation". Si vous utilisez ce code, veuillez citer notre papier.

Outil en ligne

Vous pouvez interagir avec la plate-forme Web de notre Sanskritshala: Link . Nous vous encourageons à vérifier notre vidéo de démonstration pour vous familiariser avec notre plateforme.

Modules neuronaux du sanskritshala pour 4 tâches NLP

Vous pouvez trouver plus de détails sur les bases de code dans le dossier Neural Modules pour le segmentaion de mots, le marquage morphologique, l'analyse de dépèche et la tâche d'identification du type de composé.

Déployez Sanskritshala sur votre machine locale

Vous devez d'abord installer les modules individuels de votre machine comme indiqué dans la section ci-dessus. Vous n'avez pas besoin d'avoir un GPU à Oder pour faire fonctionner ces systèmes pré-entraînés sur votre machine locale. Vous pouvez trouver plus de détails sur la façon de déployer la boîte à outils sur votre machine locale dans le dossier SanShala-Web .

Evalsan: boîte à outils d'évaluation pour les incorporations sanskrit

Saneval est une boîte à outils pour évaluer la qualité des intérêts sanskrit. Nous évaluons leur pouvoir de généralisation en les utilisant comme caractéristiques sur un ensemble large et diversifié de tâches. Nous incluons une suite de 4 tâches intrinsèques qui évaluent quelles propriétés linguistiques sont codées dans les incorporations de mots. Notre objectif est de faciliter l'étude et le développement de représentations de mots à taille générale pour le sanskrit. Vous pouvez trouver plus de détails sur les bases de code dans le dossier EvalSan .

Tâches d'évaluation

Tâches intrinsèques

Saneval comprend une série de tâches intrinsèques pour évaluer les propriétés linguistiques codées dans vos intérêts de mot.
Nous utilisons le schéma de translittération SLP1 pour nos données. Vous pouvez le changer en un autre schéma en utilisant ce code.

Tâche	Métrique	#dev	#test
Parenté	F-score	4.5k	9K
Similarité	Précision	n / A	3K
Catégorisation syntaxtique	Pureté	n / A	1.1k
Catégorisation sémantique	Pureté	n / A	150
Analogie syntaxtique	Précision	n / A	10k
Analogie sémantique	Précision	n / A	6.4k

Incorporation de mots pré-entraînés

Vous pouvez télécharger les modèles pré-entraînés à partir de ce lien. README.md est donné pour chaque modèle.
Placez le dossier models dans le chemin du répertoire parent.
Les vecteurs pré-entraînés peuvent être téléchargés à partir de ce lien. Placez ce dossier dans EvalSan/evaluations/Intrinsic/ Path. Ces vecteurs sont utilisés dans le script d'évaluation.
Notre prélèvement LCM proposé est disponible dans le dossier EvalSan/LCM . Pour plus de détails, veuillez visiter ce lien.

Citation

Si vous utilisez notre outil, nous apprécierions si vous citez notre papier:

 @misc{Sandhan_SanskritShala,
  doi = {10.48550/ARXIV.2302.09527},
  url = {https://arxiv.org/abs/2302.09527},
  author = {Sandhan, Jivnesh and Agarwal, Anshul and Behera, Laxmidhar and Sandhan, Tushar and Goyal, Pawan},
  keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
  title = {SanskritShala: A Neural Sanskrit NLP Toolkit with Web-Based Interface for Pedagogical and Annotation Purposes},
  publisher = {arXiv},
  year = {2023},
  copyright = {Creative Commons Attribution 4.0 International}
}