完全なドキュメント:https://pycantonese.org
ピカントネーゼは、広東語の言語学と自然言語処理(NLP)のPythonライブラリです。現在実装されている機能(今後は詳細!):
安定したバージョンをダウンロードしてインストールするには:
$ PIPインストール - ピカントネーゼのアップグレード
もっと準備ができていますか?クイックスタートページをご覧ください。
チームがピカントン語の使用に専門的な支援を希望する場合、フリーランスのコンサルティングおよびトレーニングサービスが学術グループと商業グループの両方で利用できます。ジャクソン・L・リーにメールしてください。
ピカントネーゼが便利でサポートを提供したいと思うなら、私にコーヒーを買うことは大いに役立つでしょう!
ピカントネーゼは、ジャクソン・L・リーによって執筆され、維持されています。
Lee、Jackson L.、Litong Chen、Charles Lam、Chaak Ming Lau、およびTsz-Him Tsui。 2022。Pycantonese:Pythonの広東語言語学とNLP。第13言語リソースおよび評価会議の議事録。
@inproceedings{lee-etal-2022-pycantonese,
title = "PyCantonese: Cantonese Linguistics and NLP in Python" ,
author = "Lee, Jackson L. and
Chen, Litong and
Lam, Charles and
Lau, Chaak Ming and
Tsui, Tsz-Him",
booktitle = "Proceedings of The 13th Language Resources and Evaluation Conference" ,
month = june,
year = "2022" ,
publisher = "European Language Resources Association" ,
language = "English" ,
}MITライセンス。詳細については、githubソースコードのLICENSE.txt参照してください。
ピカントネーゼに含まれるHKCANCORデータセットは、形式の観点からそのソースから大幅に変更されています。元のデータセットには、ライセンスによるCCがあります。詳細については、GitHubソースコードのpycantonese/data/hkcancor/README.mdご覧ください。
Rime-Cantoneseデータ(リリース2021.05.16)は、単語のセグメンテーションとキャラクターへの変換のために、ピカントン語に組み込まれています。このデータには、4.0ライセンス程度のCCがあります。詳細については、GitHubソースコードのpycantonese/data/rime_cantonese/README.mdご覧ください。
Pycantoneseのロゴは漢字です粵、広東語を意味し、Albino.snowman(Instagramハンドル)による芸術デザインがあります。
ピカントン語に組み込まれた許容免許を持つ素晴らしいリソース:
プルリクエスト、バグレポート、およびその他のフィードバック(姓のアルファベット順の順序で)を提供した個人:
CHANGELOG.mdをご覧ください。
開発中の最新のコードは、GithubのJacksonllee/Pycantoneseで入手できます。実験機能または開発のためにこのバージョンを取得するには:
$ git clone https://github.com/jacksonllee/pycantonese.git
$ cd pycantonese
$ pip install -e " .[dev] "テストとスタイリングチェックを実行するには:
$ pytest
$ flake8 src tests
$ black --check src testsドキュメントWebサイトファイルを作成するには:
$ python docs/source/build_docs.py