Código oficial do artigo "Sanskritshala: um kit de ferramentas do NLP sânscrito neural com interface baseada na Web para fins pedagógicos e de anotação". Se você usar este código, cite nosso artigo.
Você pode interagir com a plataforma da Web de nossa Sanskritshala: Link . Incentivamos você a verificar nosso vídeo de demonstração para se familiarizar com nossa plataforma.
Você pode encontrar mais detalhes das bases de código na pasta de Neural Modules para segumente de palavras, marcação morfológica, análise de dependência e tarefa de identificação do tipo composto.
Primeiro, você precisa instalar os módulos individuais em sua máquina, conforme instruído na seção acima. Você não precisa ter uma GPU em oder para fazer com que esses sistemas pré -terem trabalhado em sua máquina local. Você pode encontrar mais detalhes sobre como implantar kit de ferramentas na sua máquina local na pasta SanShala-Web .
O saneval é um kit de ferramentas para avaliar a qualidade das incorporações sânscritas. Avaliamos seu poder de generalização usando -os como recursos em um conjunto amplo e diversificado de tarefas. Incluímos um conjunto de 4 tarefas intrínsecas que avaliam sobre quais propriedades linguísticas são codificadas em incorporações de palavras. Nosso objetivo é facilitar o estudo e o desenvolvimento de representações de palavras de tamanho fixo de uso geral para sânscrito. Você pode encontrar mais detalhes das bases de código na pasta EvalSan .
SLP1 para nossos dados. Você pode alterá -lo para outro esquema usando este código.| Tarefa | Métrica | #dev | #teste |
|---|---|---|---|
| Relação | F-score | 4.5K | 9K |
| Semelhança | Precisão | n / D | 3k |
| Categorização sintática | Pureza | n / D | 1.1k |
| Categorização semântica | Pureza | n / D | 150 |
| Analogia sintática | Precisão | n / D | 10k |
| Analogia semântica | Precisão | n / D | 6.4K |
README.md é fornecido para cada modelo.models no caminho do diretório pai.EvalSan/evaluations/Intrinsic/ Caminho. Esses vetores estão sendo usados no script de avaliação.EvalSan/LCM . Para mais detalhes, visite este link. Se você usar nossa ferramenta, gostaríamos se você citar nosso papel:
@misc{Sandhan_SanskritShala,
doi = {10.48550/ARXIV.2302.09527},
url = {https://arxiv.org/abs/2302.09527},
author = {Sandhan, Jivnesh and Agarwal, Anshul and Behera, Laxmidhar and Sandhan, Tushar and Goyal, Pawan},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {SanskritShala: A Neural Sanskrit NLP Toolkit with Web-Based Interface for Pedagogical and Annotation Purposes},
publisher = {arXiv},
year = {2023},
copyright = {Creative Commons Attribution 4.0 International}
}
Este projeto está licenciado nos termos da Apache license 2.0 .
Gostaríamos de agradecer a todos que nos ajudaram a criar os diferentes modelos neurais para Sanskritshala.