spacy pipeline bg下载 - spacy pipeline bg源代码下载

spacy pipeline bg

Ai源码

1.0.0

下载

保加利亚尖峰自然语言处理管道

论文：改进的保加利亚自然语言处理管道，国际信息系统会议论文集，嵌入式系统和智能应用程序（ISHIA）2023。

用法

首先，需要从HuggingFace下载到repo文件夹中。

为了使用管道，应将其安装为本地Python软件包：

python -m spacy package ./models_v3.3/model-best/ packages --name bg --version 1.0.0 --code language_components/custom_bg_lang.py
pip install packages/bg_bg-1.0.0/dist/bg_bg-1.0.0.tar.gz

您可以使用pip list命令正确安装管道。

成功安装后，可以在Python文件中以Spacy语言模型打开管道。需要手动添加令牌。

 import spacy
nlp = spacy . load ( "bg_bg" )
from language_components . custom_tokenizer import *
nlp . tokenizer = custom_tokenizer ( nlp )

有关如何使用管道的更多详细信息，请查看模型加载和使用笔记本以及官方Spacy文档。

项目结构和细节

管道组件

管道包括以下步骤：

令牌化
句子分裂
柠檬酸
语音的一部分标记
依赖解析
单词感官歧义（可根据要求提供）

预审计的矢量

可以从FastText网站下载预估计的FastText矢量并将其放入vectors/文件夹中。

Spacy项目结构

在下载了预定的单词矢量和验证的模型后，该项目应由以下文件夹组成：

configs/ - 配置文件，
corpus/ - 火车/开发/测试数据集，以.spacy格式，
language_components/ - 自定义语言组件的文件（tokenizer，sencencizer和connected文件），
models_v3.3/ - Spacy 3.3中的训练有素的管道模型，
models_v3.4/ - Spacy 3.4中的训练有素的管道模型，
tests/ - 定制组件的Unitests，
vectors/ - 审计的单词嵌入（fastText），
visualiations/ - 依赖性解析测试集的可视化。

令牌化

令牌化是管道的第一步。保加利亚令牌包括自定义规则，例外和停止词。它可以与管道的其余部分分开使用。

规则

基于规则的令牌规则在file language_components/custom_tokenizer.py中。它们由以下常规例外定义：

 prefix_re = re . compile ( r'''^[[("'“„]''' )
suffix_re = re . compile ( r'''[])"'.?!,:%$€“„]$''' )
infix_re = re . compile ( r'''[~]''' )
simple_url_re = re . compile ( r'''^https?://''' )

例外

Tokenizer异常在file language_components/token_exceptions.py.它们在以下变量中分组：

METRICS_NO_DOT_EXC措施单位
DASH_ABBR_EXC带有内在破折号的缩写
DASH_ABBR_TITLE_EXC带有内在破折号的缩写，大写
ABBR_DOT_MIDDLE_EXC带有一个不能在句子结尾处的点的缩写
ABBR_DOT_MIDDLE_TITLE_EXC与大写字母相同
ABBR_DOT_END_EXC带有句子结尾处的点的缩写
ABBR_UPPERCASE_EXC大写缩写

停止字

在file language_components/stopwords.py中。停止词是从Bultreebank网站上获取的。

其他组件

有关管道中其余部分的详细信息，请参考文章。

参考

如果您在学术项目中使用管道，请引用为：

@ article
{berbatova2023improved,
title={An improved Bulgarian natural language processing pipelihttps://github.com/melaniab/spacy-pipeline-bgne},
author={Berbatova, Melania and Ivanov, Filip},
journal={Annual of Sofia University St. Kliment Ohridski. Faculty of Mathematics and Informatics},
volume={110},
pages={37--50},
year={2023}
}

麻省理工学院许可证
版权（C）2023 Melania Berbatova

展开

附加信息