논문 : 개선 된 불가리아 자연 언어 처리 파이프 라인, 정보 시스템에 관한 국제 회의, 임베디드 시스템 및 지능형 응용 프로그램 (ISеSIA) 2023.
먼저, 사전 예방 모델은 Huggingface에서 Repo 폴더로 다운로드해야합니다.
파이프 라인을 사용하려면 로컬 파이썬 패키지로 설치해야합니다.
python -m spacy package ./models_v3.3/model-best/ packages --name bg --version 1.0.0 --code language_components/custom_bg_lang.py
pip install packages/bg_bg-1.0.0/dist/bg_bg-1.0.0.tar.gz
pip list 명령으로 파이프 라인이 올바르게 설치되었는지 확인할 수 있습니다.
성공적인 설치 후 파이프 라인을 파이썬 파일로 스파크 언어 모델로 열 수 있습니다. 토큰 화기를 수동으로 추가해야합니다.
import spacy
nlp = spacy . load ( "bg_bg" )
from language_components . custom_tokenizer import *
nlp . tokenizer = custom_tokenizer ( nlp )파이프 라인 사용 방법에 대한 자세한 내용은 모델 로딩 및 사용법 노트북 및 공식 스파이어 문서를 살펴보십시오.
파이프 라인은 다음 단계로 구성됩니다.
불가리아어에 대한 사전 간 FastText 벡터는 FastText 웹 사이트에서 다운로드하여 vectors/ 폴더에 넣을 수 있습니다.
사전에 사전 된 단어 벡터와 사전 처리 된 모델을 다운로드 한 후 프로젝트는 다음 폴더로 구성되어야합니다.
configs/ - 구성 파일,corpus/ - Train/Dev/Test 데이터 세트,language_components/ - 사용자 정의 언어 구성 요소 (토큰 화기, 센트 컨텐저 및 연결된 파일) 파일,models_v3.3/ - 스파이 3.3의 훈련 된 파이프 라인 모델,models_v3.4/ - 스파이 3.4의 훈련 된 파이프 라인 모델,tests/ - 단위 테스트,vectors/ - 사전 처리 된 단어 임베딩 (FastText),visualiations/ - 종속성 테스트 세트에서 시각화를 구문 분석합니다. 토큰 화는 파이프 라인의 첫 단계입니다. 불가리아 토큰 화기는 사용자 정의 규칙, 예외 및 중단으로 구성됩니다. 나머지 파이프 라인과 별도로 사용할 수 있습니다.
규칙 기반 토큰 화기의 규칙은 file language_components/custom_tokenizer.py 파일에 있습니다. 다음과 같은 정기적 인 예외로 정의됩니다.
prefix_re = re . compile ( r'''^[[("'“„]''' )
suffix_re = re . compile ( r'''[])"'.?!,:%$€“„]$''' )
infix_re = re . compile ( r'''[~]''' )
simple_url_re = re . compile ( r'''^https?://''' ) Tokenizer 예외는 File language_components/token_exceptions.py. 다음 변수로 그룹화됩니다.
METRICS_NO_DOT_EXC 측정 단위DASH_ABBR_EXC 내부 대시와의 약어DASH_ABBR_TITLE_EXC 내부 대시와의 약어는 대문자입니다ABBR_DOT_MIDDLE_EXC 문장의 끝에있을 수없는 점을 가진 약어ABBR_DOT_MIDDLE_TITLE_EXC 대문자와 동일합니다ABBR_DOT_END_EXC 문장의 끝에있을 수있는 점을 가진 약어ABBR_UPPERCASE_EXC 대문자 약어 file language_components/stopwords.py 에서. Stopwords는 Bultreebank 웹 사이트에서 가져옵니다.
파이프 라인의 나머지 구성 요소에 대한 자세한 내용은 논문을 참조하십시오.
학업 프로젝트에서 파이프 라인을 사용하는 경우 다음과 같이 인용하십시오.
@ article
{berbatova2023improved,
title={An improved Bulgarian natural language processing pipelihttps://github.com/melaniab/spacy-pipeline-bgne},
author={Berbatova, Melania and Ivanov, Filip},
journal={Annual of Sofia University St. Kliment Ohridski. Faculty of Mathematics and Informatics},
volume={110},
pages={37--50},
year={2023}
} MIT 라이센스
저작권 (C) 2023 Melania Berbatova