SanskritShalaダウンロード-Sanskritshala SanskritShalaコードのダウンロード

SanskritShala

ウェブサイトデータ

1.0.0

ダウンロード

Sanskritshala：神経サンスクリットNLPツールキット

論文の公式コード「Sanskritshala：教育および注釈の目的のためのWebベースのインターフェイスを備えたニューラルサンスクリットNLPツールキット」。このコードを使用する場合は、私たちの論文を引用してください。

Webベースのツール

SanskritshalaのWebベースのプラットフォームであるLinkと対話できます。デモビデオをチェックして、プラットフォームに精通することをお勧めします。

4つのNLPタスクのSanskritshalaのニューラルモジュール

単語segementaion、形態学的タグ付け、Depedencyの解析、複合型識別タスクのNeural Modulesフォルダーのコードベースの詳細を見つけることができます。

地元のマシンにSanskritshalaを展開します

最初に、上記のセクションで指示されているように、マシンに個々のモジュールをインストールする必要があります。これらの事前に処理されたシステムをローカルマシンで動作させるために、ODERにGPUを用意する必要はありません。 SanShala-WebフォルダーのローカルマシンにToolkitを展開する方法の詳細を見つけることができます。

Evalsan：Sanskrit Embeddingsの評価ツールキット

Sanevalは、サンスクリットの埋め込みの品質を評価するためのツールキットです。広範かつ多様なタスクのセットの機能としてそれらを使用することにより、それらの一般化力を評価します。単語の埋め込みでエンコードされている言語特性を評価する4つの本質的なタスクのスイートを含めます。私たちの目標は、サンスクリット語の汎用固定サイズの表現の研究と開発を容易にすることです。 EvalSanフォルダーにコードベースの詳細を見つけることができます。

評価タスク

本質的なタスク

Sanevalには、単語の埋め込みにどのような言語特性がエンコードされているかを評価するための一連の固有のタスクが含まれています。
データにSLP1音訳スキームを使用します。このコードを使用して別のスキームに変更できます。

タスク	メトリック	#dev	＃テスト
関連性	fスコア	4.5k	9k
類似性	正確さ	Na	3k
分類構文	純度	Na	1.1k
分類セマンティック	純度	Na	150
アナロジー構文	正確さ	Na	10k
アナロジーセマンティック	正確さ	Na	6.4k

前処理された単語の埋め込み

このリンクから事前に処理されたモデルをダウンロードできます。 README.mdは、各モデルに与えられます。
modelsフォルダーを親ディレクトリパスに配置します。
このリンクから前提型のベクトルをダウンロードできます。このフォルダーをEvalSan/evaluations/Intrinsic/ Pathに配置します。このベクトルは、評価スクリプトで使用されています。
提案されているLCM PretrainingはEvalSan/LCMフォルダーで入手できます。詳細については、このリンクをご覧ください。

引用

私たちのツールを使用する場合、私たちの論文を引用してくれたら感謝します。

 @misc{Sandhan_SanskritShala,
  doi = {10.48550/ARXIV.2302.09527},
  url = {https://arxiv.org/abs/2302.09527},
  author = {Sandhan, Jivnesh and Agarwal, Anshul and Behera, Laxmidhar and Sandhan, Tushar and Goyal, Pawan},
  keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
  title = {SanskritShala: A Neural Sanskrit NLP Toolkit with Web-Based Interface for Pedagogical and Annotation Purposes},
  publisher = {arXiv},
  year = {2023},
  copyright = {Creative Commons Attribution 4.0 International}
}