SanskritShala 다운로드 SanskritShala 소스 코드 다운로드

SanskritShala

웹사이트 데이터

1.0.0

다운로드

Sanskritshala : 신경 산스크리트어 NLP 툴킷

논문의 공식 코드 "Sanskritshala : 교육 및 주석 목적을위한 웹 기반 인터페이스가있는 신경 산스크리트 NLP 툴킷". 이 코드를 사용하면 우리 논문을 인용하십시오.

웹 기반 도구

Sanskritshala의 웹 기반 플랫폼 인 Link 와 상호 작용할 수 있습니다. 플랫폼에 익숙해 지도록 데모 비디오를 확인하는 것이 좋습니다.

4 개의 NLP 작업을위한 Sanskritshala의 신경 모듈

Word Segementaion, Morphological Tagging, Depedency Parsing 및 Compound Type 식별 작업을위한 Neural Modules 폴더의 코드베이스에 대한 자세한 내용은 찾을 수 있습니다.

로컬 컴퓨터에 Sanskritshala를 배포하십시오

먼저 위의 섹션에서 지시 한대로 컴퓨터에 개별 모듈을 설치해야합니다. 이러한 사전 각 시스템이 로컬 컴퓨터에서 작동하도록하기 위해 Oder에 GPU가 필요하지 않습니다. SanShala-Web 폴더의 로컬 컴퓨터에 툴킷을 배포하는 방법에 대한 자세한 내용은 찾을 수 있습니다.

Evalsan : Sanskrit 임베딩에 대한 평가 툴킷

Saneval은 Sanskrit 임베딩의 품질을 평가하기위한 툴킷입니다. 우리는 광범위하고 다양한 작업 세트의 기능으로 사용하여 일반화 권력을 평가합니다. 우리는 단어 임베딩에 어떤 언어 속성이 인코딩되는지에 대한 평가를 평가하는 4 개의 고유 작업 스위트를 포함합니다. 우리의 목표는 산스크리트어를위한 연구와 일반 목적 고정 크기의 단어 표현의 개발을 완화하는 것입니다. EvalSan 폴더에서 코드베이스에 대한 자세한 내용을 찾을 수 있습니다.

평가 작업

본질적인 작업

Saneval에는 단어 임베드에서 어떤 언어 속성이 인코딩되는지 평가하기위한 일련의 고유 작업이 포함되어 있습니다.
우리는 데이터에 SLP1 음역 체계를 사용합니다. 이 코드를 사용하여 다른 체계로 변경할 수 있습니다.

일	메트릭	#dev	#시험
관련성	F- 점수	4.5k	9k
유사	정확성	NA	3K
분류 구문	청정	NA	1.1k
분류 시맨틱	청정	NA	150
유추 구문	정확성	NA	10k
비유 시맨틱	정확성	NA	6.4k

사전 예측 된 단어 임베딩

이 링크에서 사전 이식 된 모델을 다운로드 할 수 있습니다. README.md 각 모델에 대해 제공됩니다.
models 폴더를 부모 디렉토리 경로에 배치하십시오.
사전 처리 된 벡터는이 링크에서 다운로드 할 수 있습니다. 이 폴더를 EvalSan/evaluations/Intrinsic/ Path에 배치하십시오. 이 벡터는 평가 스크립트에 사용됩니다.
제안 된 LCM 전 사전 조정은 EvalSan/LCM 폴더에서 제공됩니다. 자세한 내용은이 링크를 방문하십시오.

소환

도구를 사용하는 경우 논문을 인용하면 감사하겠습니다.

 @misc{Sandhan_SanskritShala,
  doi = {10.48550/ARXIV.2302.09527},
  url = {https://arxiv.org/abs/2302.09527},
  author = {Sandhan, Jivnesh and Agarwal, Anshul and Behera, Laxmidhar and Sandhan, Tushar and Goyal, Pawan},
  keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
  title = {SanskritShala: A Neural Sanskrit NLP Toolkit with Web-Based Interface for Pedagogical and Annotation Purposes},
  publisher = {arXiv},
  year = {2023},
  copyright = {Creative Commons Attribution 4.0 International}
}