Offizieller Code für das Papier "Sanskritshala: Ein neuronales Sanskrit-NLP-Toolkit mit webbasiertem Schnittstellen für pädagogische und Annotationszwecke". Wenn Sie diesen Code verwenden, zitieren Sie bitte unser Papier.
Sie können mit unserer webbasierten Plattform unserer Sanskritshala interagieren: Link . Wir ermutigen Sie, unser Demo -Video zu überprüfen, um uns mit unserer Plattform vertraut zu machen.
Weitere Details zu Codebasen im Ordner Neural Modules finden Sie für Wortsegementaion, morphologisches Markieren, Depeedcy -Parsen und Aufgabe von Verbundtypen.
Zunächst müssen Sie die einzelnen Module auf Ihrer Maschine installieren, wie im obigen Abschnitt angewiesen. Sie müssen keine GPU in ODer haben, damit diese vorbereiteten Systeme auf Ihrer lokalen Maschine funktionieren. Weitere Informationen zum Bereitstellen von Toolkit auf Ihrer lokalen Maschine im SanShala-Web Ordner finden Sie möglicherweise.
Saneval ist ein Toolkit zur Bewertung der Qualität von Sanskrit -Einbettungen. Wir bewerten ihre Generalisierungskraft, indem wir sie als Funktionen für eine breite und vielfältige Reihe von Aufgaben verwenden. Wir enthalten eine Suite von 4 intrinsischen Aufgaben , die bewerten, welche sprachlichen Eigenschaften in Word -Einbettungen codiert werden. Unser Ziel ist es, die Studie und die Entwicklung von Word-Repräsentationen mit fester Größe für Sanskrit zu erleichtern. Sie können weitere Details zu Codebasen im Ordner EvalSan finden.
SLP1 -Transliterationsschema für unsere Daten. Sie können es mit diesem Code in ein anderes Schema ändern.| Aufgabe | Metrisch | #dev | #prüfen |
|---|---|---|---|
| Verwandtschaft | F-Score | 4,5k | 9k |
| Ähnlichkeit | Genauigkeit | n / A | 3k |
| Kategorisierungssyntaktik | Reinheit | n / A | 1.1k |
| Kategorisierungssemantik | Reinheit | n / A | 150 |
| Analogie -Syntaktik | Genauigkeit | n / A | 10k |
| Analogie semantisch | Genauigkeit | n / A | 6.4k |
README.md ist für jedes Modell angegeben.models im übergeordneten Verzeichnispfad.EvalSan/evaluations/Intrinsic/ Path. Diese Vektoren werden im Bewertungsskript verwendet.EvalSan/LCM erhältlich. Weitere Informationen finden Sie in diesem Link. Wenn Sie unser Tool verwenden, würden wir es zu schätzen wissen, wenn Sie unser Papier zitieren:
@misc{Sandhan_SanskritShala,
doi = {10.48550/ARXIV.2302.09527},
url = {https://arxiv.org/abs/2302.09527},
author = {Sandhan, Jivnesh and Agarwal, Anshul and Behera, Laxmidhar and Sandhan, Tushar and Goyal, Pawan},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {SanskritShala: A Neural Sanskrit NLP Toolkit with Web-Based Interface for Pedagogical and Annotation Purposes},
publisher = {arXiv},
year = {2023},
copyright = {Creative Commons Attribution 4.0 International}
}
Dieses Projekt ist gemäß den Bestimmungen der Apache license 2.0 lizenziert.
Wir möchten uns bei allen bedanken, die uns geholfen haben, die verschiedenen neuronalen Modelle für Sanskritshala zu machen.