SanskritShala下載SanskritShala源代碼下載

SanskritShala

網站數據

1.0.0

下載

梵語：神經梵語NLP工具包

該論文的官方代碼“ Sanskritshala：具有基於Web的界面的神經梵語NLP工具包，用於教學和註釋目的”。如果您使用此代碼，請引用我們的論文。

基於Web的工具

您可以與我們的梵語基於網絡的平台進行互動： Link 。我們鼓勵您檢查我們的演示視頻以熟悉我們的平台。

梵語的神經模塊4個NLP任務

您可能會在Neural Modules文件夾中找到有關文字segementaion，形態標記，Depedency解析和復合類型標識任務的更多詳細信息。

在本地機器上部署梵語

首先，您需要按照上一節中的指示在計算機上安裝單個模塊。您無需在ODER中使用GPU就可以使這些驗證的系統在本地機器上工作。您可能會找到有關如何在SanShala-Web文件夾中本地計算機上部署工具包的更多詳細信息。

Evalsan：梵文嵌入的評估工具包

Saneval是用於評估梵語嵌入質量的工具包。我們通過將它們用作廣泛而多樣的任務的功能來評估它們的概括能力。我們包括一個由4個固有任務組成的套件，這些任務評估在單詞嵌入中編碼哪些語言特性。我們的目標是簡化梵語的研究和開發通用固定尺寸的單詞表示。您可能會在EvalSan文件夾中找到更多代碼庫的詳細信息。

評估任務

內在任務

Saneval包括一系列內在任務，以評估單詞嵌入中編碼哪些語言特性。
我們將SLP1音譯方案用於我們的數據。您可以使用此代碼將其更改為另一個方案。

任務	公制	#dev	＃測試
相關性	F-SCORE	4.5k	9k
相似	準確性	na	3k
分類句法	純度	na	1.1k
分類語義	純度	na	150
類比句法	準確性	na	10k
類比語義	準確性	na	6.4k

驗證的單詞嵌入

您可以從此鏈接下載驗證的模型。每個模型都給出了README.md 。
將models文件夾放在父目錄路徑中。
可以從此鏈接下載驗證的矢量。將此文件夾放在EvalSan/evaluations/Intrinsic/路徑中。該向量用於評估腳本。
我們提出的LCM預處理可在EvalSan/LCM文件夾中獲得。有關更多詳細信息，請訪問此鏈接。

引用

如果您使用我們的工具，如果您引用我們的論文，我們將不勝感激：

 @misc{Sandhan_SanskritShala,
  doi = {10.48550/ARXIV.2302.09527},
  url = {https://arxiv.org/abs/2302.09527},
  author = {Sandhan, Jivnesh and Agarwal, Anshul and Behera, Laxmidhar and Sandhan, Tushar and Goyal, Pawan},
  keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
  title = {SanskritShala: A Neural Sanskrit NLP Toolkit with Web-Based Interface for Pedagogical and Annotation Purposes},
  publisher = {arXiv},
  year = {2023},
  copyright = {Creative Commons Attribution 4.0 International}
}