Descargar SanskritShala - Descargar el código fuente SanskritShala

SanskritShala

Datos del sitio web

1.0.0

Descargar

Sánscrito: un kit de herramientas NLP sánscrito neuronal

Código oficial para el documento "Sanscritshala: un kit de herramientas NLP sánscrito neuronal con interfaz basada en la web para fines pedagógicos y de anotación". Si usa este código, cite nuestro documento.

Herramienta basada en la web

Puede interactuar con nuestra plataforma basada en la web de Sanskritshala: Link . Le recomendamos que revise nuestro video de demostración para familiarizarse con nuestra plataforma.

Módulos neuronales de sánscrito para 4 tareas de PNL

Puede encontrar más detalles de las bases de código en la carpeta de Neural Modules para la segementa de palabras, el etiquetado morfológico, el análisis de la depedencia y la tarea de identificación del tipo de compuesto.

Implementar sánscritshala en su máquina local

Primero debe instalar los módulos individuales en su máquina como se indica en la sección anterior. No necesita tener una GPU en ODER para que estos sistemas previos al estado de la máquina funcionen en su máquina local. Puede encontrar más detalles sobre cómo implementar el kit de herramientas en su máquina local en la carpeta SanShala-Web .

Evalsan: Kit de herramientas de evaluación para incrustaciones sánscritas

Saneval es un conjunto de herramientas para evaluar la calidad de las integridades sánscritas. Evaluamos su poder de generalización utilizándolos como características en un conjunto amplio y diverso de tareas. Incluimos un conjunto de 4 tareas intrínsecas que evalúan qué propiedades lingüísticas están codificadas en incrustaciones de palabras. Nuestro objetivo es facilitar el estudio y el desarrollo de representaciones de palabras de tamaño fijo de uso general para sánscrito. Puede encontrar más detalles de CodeBases en la carpeta EvalSan .

Tareas de evaluación

Tareas intrínsecas

Saneval incluye una serie de tareas intrínsecas para evaluar qué propiedades lingüísticas están codificadas en sus incrustaciones de palabras.
Utilizamos el esquema de transliteración SLP1 para nuestros datos. Puede cambiarlo a otro esquema usando este código.

Tarea	Métrico	#dev	#prueba
Relación	Puntaje	4.5k	9k
Semejanza	Exactitud	n / A	3k
Categorización sintáctica	Pureza	n / A	1.1k
Categorización semántica	Pureza	n / A	150
Analogía sintáctica	Exactitud	n / A	10k
Analogía semántica	Exactitud	n / A	6.4k

Incrustaciones de palabras previas

Puede descargar los modelos previos a la petróleo de este enlace. README.md se da para cada modelo.
Coloque la carpeta models en la ruta del directorio principal.
Los vectores previos al detenido se pueden descargar de este enlace. Coloque esta carpeta en EvalSan/evaluations/Intrinsic/ Path. Estos vectores se están utilizando en el script de evaluación.
Nuestro pretrénste de LCM propuesto está disponible en la carpeta EvalSan/LCM . Para más detalles, visite este enlace.

Citación

Si usa nuestra herramienta, apreciamos si cita nuestro artículo:

 @misc{Sandhan_SanskritShala,
  doi = {10.48550/ARXIV.2302.09527},
  url = {https://arxiv.org/abs/2302.09527},
  author = {Sandhan, Jivnesh and Agarwal, Anshul and Behera, Laxmidhar and Sandhan, Tushar and Goyal, Pawan},
  keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
  title = {SanskritShala: A Neural Sanskrit NLP Toolkit with Web-Based Interface for Pedagogical and Annotation Purposes},
  publisher = {arXiv},
  year = {2023},
  copyright = {Creative Commons Attribution 4.0 International}
}