論文:ブルガリアの自然言語処理パイプライン、情報システムに関する国際会議、組み込みシステム、インテリジェントアプリケーション(ISésia)2023年の議事録。
まず、事前に守られたモデルをHuggingfaceからレポフォルダーにダウンロードする必要があります。
パイプラインを使用するには、ローカルPythonパッケージとしてインストールする必要があります。
python -m spacy package ./models_v3.3/model-best/ packages --name bg --version 1.0.0 --code language_components/custom_bg_lang.py
pip install packages/bg_bg-1.0.0/dist/bg_bg-1.0.0.tar.gz
pip listコマンドでパイプラインが正しくインストールされているかどうかを確認できます。
インストールが成功した後、パイプラインはSPACY言語モデルとしてPythonファイルで開くことができます。トークン剤を手動で追加する必要があります。
import spacy
nlp = spacy . load ( "bg_bg" )
from language_components . custom_tokenizer import *
nlp . tokenizer = custom_tokenizer ( nlp )パイプラインの使用方法の詳細については、モデルの読み込みと使用法ノートブックと公式のSPACYドキュメントをご覧ください。
パイプラインは次の手順で構成されています。
ブルガリア語用の事前に保護されたFastTextベクターは、FastText Webサイトからダウンロードして、 vectors/フォルダーに入れることができます。
事前に処理された単語ベクトルと前提条件のモデルをダウンロードした後、プロジェクトは次のフォルダーで構成される必要があります。
configs/ - 構成ファイル、corpus/ - 列車/dev/テストデータセット。language_components/ - カスタム言語コンポーネントのファイル(トークナイザー、センサンザイザー、および接続されたファイル)、models_v3.3/ - スペイシー3.3の訓練されたパイプラインモデル、models_v3.4/ - スペイシー3.4の訓練されたパイプラインモデル、tests/ - カスタムコンポーネントの無地、vectors/ - 前処理された単語埋め込み(fastText)、visualiations/ - テストセットでの視覚化の解析。 トークン化は、パイプラインの最初のステップです。ブルガリアのトークネザーは、カスタムルール、例外、ストップワードで構成されています。他のパイプラインとは別に使用できます。
ルールベースのトークンザーのルールは、ファイルLanguage_components/custom_tokenizer.pyにあります。これらは、次の定期的な例外によって定義されます。
prefix_re = re . compile ( r'''^[[("'“„]''' )
suffix_re = re . compile ( r'''[])"'.?!,:%$€“„]$''' )
infix_re = re . compile ( r'''[~]''' )
simple_url_re = re . compile ( r'''^https?://''' )トークナイザーの例外は、ファイル言語language_components/token_exceptions.py.それらは次の変数にグループ化されています。
METRICS_NO_DOT_EXC測定単位DASH_ABBR_EXC内側のダッシュ付きの略語DASH_ABBR_TITLE_EXC内側のダッシュを使用した略語、大文字ABBR_DOT_MIDDLE_EXC文の終わりにできないドットを備えた略語ABBR_DOT_MIDDLE_TITLE_EXC大文字と同じですABBR_DOT_END_EXC文の終わりにある可能性のあるドットの略語ABBR_UPPERCASE_EXC大文字の略語ファイルlanguage_components/stopwords.pyで。 Stopwordsは、BultreeBank Webサイトから取得されます。
パイプラインの残りのコンポーネントの詳細については、論文を参照してください。
アカデミックプロジェクトでパイプラインを使用する場合は、次のように引用してください。
@ article
{berbatova2023improved,
title={An improved Bulgarian natural language processing pipelihttps://github.com/melaniab/spacy-pipeline-bgne},
author={Berbatova, Melania and Ivanov, Filip},
journal={Annual of Sofia University St. Kliment Ohridski. Faculty of Mathematics and Informatics},
volume={110},
pages={37--50},
year={2023}
} MITライセンス
Copyright(c)2023 Melania Berbatova