SanskritShala下载SanskritShala源代码下载

SanskritShala

网站数据

1.0.0

下载

梵语：神经梵语NLP工具包

该论文的官方代码“ Sanskritshala：具有基于Web的界面的神经梵语NLP工具包，用于教学和注释目的”。如果您使用此代码，请引用我们的论文。

基于Web的工具

您可以与我们的梵语基于网络的平台进行互动： Link 。我们鼓励您检查我们的演示视频以熟悉我们的平台。

梵语的神经模块4个NLP任务

您可能会在Neural Modules文件夹中找到有关文字segementaion，形态标记，Depedency解析和复合类型标识任务的更多详细信息。

在本地机器上部署梵语

首先，您需要按照上一节中的指示在计算机上安装单个模块。您无需在ODER中使用GPU就可以使这些验证的系统在本地机器上工作。您可能会找到有关如何在SanShala-Web文件夹中本地计算机上部署工具包的更多详细信息。

Evalsan：梵文嵌入的评估工具包

Saneval是用于评估梵语嵌入质量的工具包。我们通过将它们用作广泛而多样的任务的功能来评估它们的概括能力。我们包括一个由4个固有任务组成的套件，这些任务评估在单词嵌入中编码哪些语言特性。我们的目标是简化梵语的研究和开发通用固定尺寸的单词表示。您可能会在EvalSan文件夹中找到更多代码库的详细信息。

评估任务

内在任务

Saneval包括一系列内在任务，以评估单词嵌入中编码哪些语言特性。
我们将SLP1音译方案用于我们的数据。您可以使用此代码将其更改为另一个方案。

任务	公制	#dev	＃测试
相关性	F-SCORE	4.5k	9k
相似	准确性	na	3k
分类句法	纯度	na	1.1k
分类语义	纯度	na	150
类比句法	准确性	na	10k
类比语义	准确性	na	6.4k

验证的单词嵌入

您可以从此链接下载验证的模型。每个模型都给出了README.md 。
将models文件夹放在父目录路径中。
可以从此链接下载验证的矢量。将此文件夹放在EvalSan/evaluations/Intrinsic/路径中。该向量用于评估脚本。
我们提出的LCM预处理可在EvalSan/LCM文件夹中获得。有关更多详细信息，请访问此链接。

引用

如果您使用我们的工具，如果您引用我们的论文，我们将不胜感激：

 @misc{Sandhan_SanskritShala,
  doi = {10.48550/ARXIV.2302.09527},
  url = {https://arxiv.org/abs/2302.09527},
  author = {Sandhan, Jivnesh and Agarwal, Anshul and Behera, Laxmidhar and Sandhan, Tushar and Goyal, Pawan},
  keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
  title = {SanskritShala: A Neural Sanskrit NLP Toolkit with Web-Based Interface for Pedagogical and Annotation Purposes},
  publisher = {arXiv},
  year = {2023},
  copyright = {Creative Commons Attribution 4.0 International}
}