Código oficial para el documento "Sanscritshala: un kit de herramientas NLP sánscrito neuronal con interfaz basada en la web para fines pedagógicos y de anotación". Si usa este código, cite nuestro documento.
Puede interactuar con nuestra plataforma basada en la web de Sanskritshala: Link . Le recomendamos que revise nuestro video de demostración para familiarizarse con nuestra plataforma.
Puede encontrar más detalles de las bases de código en la carpeta de Neural Modules para la segementa de palabras, el etiquetado morfológico, el análisis de la depedencia y la tarea de identificación del tipo de compuesto.
Primero debe instalar los módulos individuales en su máquina como se indica en la sección anterior. No necesita tener una GPU en ODER para que estos sistemas previos al estado de la máquina funcionen en su máquina local. Puede encontrar más detalles sobre cómo implementar el kit de herramientas en su máquina local en la carpeta SanShala-Web .
Saneval es un conjunto de herramientas para evaluar la calidad de las integridades sánscritas. Evaluamos su poder de generalización utilizándolos como características en un conjunto amplio y diverso de tareas. Incluimos un conjunto de 4 tareas intrínsecas que evalúan qué propiedades lingüísticas están codificadas en incrustaciones de palabras. Nuestro objetivo es facilitar el estudio y el desarrollo de representaciones de palabras de tamaño fijo de uso general para sánscrito. Puede encontrar más detalles de CodeBases en la carpeta EvalSan .
SLP1 para nuestros datos. Puede cambiarlo a otro esquema usando este código.| Tarea | Métrico | #dev | #prueba |
|---|---|---|---|
| Relación | Puntaje | 4.5k | 9k |
| Semejanza | Exactitud | n / A | 3k |
| Categorización sintáctica | Pureza | n / A | 1.1k |
| Categorización semántica | Pureza | n / A | 150 |
| Analogía sintáctica | Exactitud | n / A | 10k |
| Analogía semántica | Exactitud | n / A | 6.4k |
README.md se da para cada modelo.models en la ruta del directorio principal.EvalSan/evaluations/Intrinsic/ Path. Estos vectores se están utilizando en el script de evaluación.EvalSan/LCM . Para más detalles, visite este enlace. Si usa nuestra herramienta, apreciamos si cita nuestro artículo:
@misc{Sandhan_SanskritShala,
doi = {10.48550/ARXIV.2302.09527},
url = {https://arxiv.org/abs/2302.09527},
author = {Sandhan, Jivnesh and Agarwal, Anshul and Behera, Laxmidhar and Sandhan, Tushar and Goyal, Pawan},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {SanskritShala: A Neural Sanskrit NLP Toolkit with Web-Based Interface for Pedagogical and Annotation Purposes},
publisher = {arXiv},
year = {2023},
copyright = {Creative Commons Attribution 4.0 International}
}
Este proyecto tiene licencia bajo los términos de la Apache license 2.0 .
Nos gustaría agradecer a todos los que nos ayudaron a hacer los diferentes modelos neuronales para Sanskritshala.