完整文档:https://pycantonese.org
Pycantonese是一个用于广东话语言和自然语言处理(NLP)的Python图书馆。当前已实现的功能(更多!):
要下载并安装稳定的最新版本:
$ pip安装 - 升级pycantonese
准备更多吗?查看快速启动页面。
如果您的团队希望在使用Pycantonese方面提供专业帮助,则可以为学术和商业团体提供自由咨询和培训服务。请给杰克逊·李(Jackson L. Lee)发送电子邮件。
如果您发现Pycantonese有用并想提供支持,那么买咖啡会有很长的路要走!
Pycantonese由杰克逊·李(Jackson L. Lee)撰写和维护。
Lee,Jackson L.,Litong Chen,Charles Lam,Chaak Ming Lau和Tsz-Him Tsui。 2022。pycantonese:Python中的广东话语言学和NLP。第13个语言资源和评估会议论文集。
@inproceedings{lee-etal-2022-pycantonese,
title = "PyCantonese: Cantonese Linguistics and NLP in Python" ,
author = "Lee, Jackson L. and
Chen, Litong and
Lam, Charles and
Lau, Chaak Ming and
Tsui, Tsz-Him",
booktitle = "Proceedings of The 13th Language Resources and Evaluation Conference" ,
month = june,
year = "2022" ,
publisher = "European Language Resources Association" ,
language = "English" ,
}麻省理工学院许可证。有关详细信息,请参见GitHub源代码中的LICENSE.txt 。
pycantonese中包含的HKCancor数据集通过其格式而言是从其来源进行了基本修改的。原始数据集具有CC乘许可证。有关详细信息,请参见github源代码中的pycantonese/data/hkcancor/README.md 。
Rime-Cantonese数据(版本2021.05.16)被合并到pycantonese中,用于单词分割和字符到jyut的转换。该数据具有CC BY 4.0许可证。有关详细信息,请参见pycantonese/data/rime_cantonese/README.md 。
pycantonese徽标是汉字粤意为广东话,并带有Albino.Snowman(Instagram句柄)的艺术设计。
具有宽松许可证的精彩资源已纳入Pycantonese:
贡献了拉的请求,错误报告和其他反馈的个人(按姓氏的字母顺序排列):
请参阅CHANGELOG.md 。
正在开发的最新代码可在Jacksonlele/Pycantonese的GitHub上找到。获取此版本的实验功能或开发:
$ git clone https://github.com/jacksonllee/pycantonese.git
$ cd pycantonese
$ pip install -e " .[dev] "运行测试和样式检查:
$ pytest
$ flake8 src tests
$ black --check src tests构建文档网站文件:
$ python docs/source/build_docs.py