spacy pipeline bg
1.0.0
论文:改进的保加利亚自然语言处理管道,国际信息系统会议论文集,嵌入式系统和智能应用程序(ISHIA)2023。
首先,需要从HuggingFace下载到repo文件夹中。
为了使用管道,应将其安装为本地Python软件包:
python -m spacy package ./models_v3.3/model-best/ packages --name bg --version 1.0.0 --code language_components/custom_bg_lang.py
pip install packages/bg_bg-1.0.0/dist/bg_bg-1.0.0.tar.gz
您可以使用pip list命令正确安装管道。
成功安装后,可以在Python文件中以Spacy语言模型打开管道。需要手动添加令牌。
import spacy
nlp = spacy . load ( "bg_bg" )
from language_components . custom_tokenizer import *
nlp . tokenizer = custom_tokenizer ( nlp )有关如何使用管道的更多详细信息,请查看模型加载和使用笔记本以及官方Spacy文档。
管道包括以下步骤:
可以从FastText网站下载预估计的FastText矢量并将其放入vectors/文件夹中。
在下载了预定的单词矢量和验证的模型后,该项目应由以下文件夹组成:
configs/ - 配置文件,corpus/ - 火车/开发/测试数据集,以.spacy格式,language_components/ - 自定义语言组件的文件(tokenizer,sencencizer和connected文件),models_v3.3/ - Spacy 3.3中的训练有素的管道模型,models_v3.4/ - Spacy 3.4中的训练有素的管道模型,tests/ - 定制组件的Unitests,vectors/ - 审计的单词嵌入(fastText),visualiations/ - 依赖性解析测试集的可视化。 令牌化是管道的第一步。保加利亚令牌包括自定义规则,例外和停止词。它可以与管道的其余部分分开使用。
基于规则的令牌规则在file language_components/custom_tokenizer.py中。它们由以下常规例外定义:
prefix_re = re . compile ( r'''^[[("'“„]''' )
suffix_re = re . compile ( r'''[])"'.?!,:%$€“„]$''' )
infix_re = re . compile ( r'''[~]''' )
simple_url_re = re . compile ( r'''^https?://''' )Tokenizer异常在file language_components/token_exceptions.py.它们在以下变量中分组:
METRICS_NO_DOT_EXC措施单位DASH_ABBR_EXC带有内在破折号的缩写DASH_ABBR_TITLE_EXC带有内在破折号的缩写,大写ABBR_DOT_MIDDLE_EXC带有一个不能在句子结尾处的点的缩写ABBR_DOT_MIDDLE_TITLE_EXC与大写字母相同ABBR_DOT_END_EXC带有句子结尾处的点的缩写ABBR_UPPERCASE_EXC大写缩写在file language_components/stopwords.py中。停止词是从Bultreebank网站上获取的。
有关管道中其余部分的详细信息,请参考文章。
如果您在学术项目中使用管道,请引用为:
@ article
{berbatova2023improved,
title={An improved Bulgarian natural language processing pipelihttps://github.com/melaniab/spacy-pipeline-bgne},
author={Berbatova, Melania and Ivanov, Filip},
journal={Annual of Sofia University St. Kliment Ohridski. Faculty of Mathematics and Informatics},
volume={110},
pages={37--50},
year={2023}
}麻省理工学院许可证
版权(C)2023 Melania Berbatova