完整文檔:https://pycantonese.org
Pycantonese是一個用於廣東話語言和自然語言處理(NLP)的Python圖書館。當前已實現的功能(更多!):
要下載並安裝穩定的最新版本:
$ pip安裝 - 升級pycantonese
準備更多嗎?查看快速啟動頁面。
如果您的團隊希望在使用Pycantonese方面提供專業幫助,則可以為學術和商業團體提供自由諮詢和培訓服務。請給傑克遜·李(Jackson L. Lee)發送電子郵件。
如果您發現Pycantonese有用並想提供支持,那麼買咖啡會有很長的路要走!
Pycantonese由傑克遜·李(Jackson L. Lee)撰寫和維護。
Lee,Jackson L.,Litong Chen,Charles Lam,Chaak Ming Lau和Tsz-Him Tsui。 2022。 pycantonese:Python中的廣東話語言學和NLP。第13個語言資源和評估會議論文集。
@inproceedings{lee-etal-2022-pycantonese,
title = "PyCantonese: Cantonese Linguistics and NLP in Python" ,
author = "Lee, Jackson L. and
Chen, Litong and
Lam, Charles and
Lau, Chaak Ming and
Tsui, Tsz-Him",
booktitle = "Proceedings of The 13th Language Resources and Evaluation Conference" ,
month = june,
year = "2022" ,
publisher = "European Language Resources Association" ,
language = "English" ,
}麻省理工學院許可證。有關詳細信息,請參見GitHub源代碼中的LICENSE.txt 。
pycantonese中包含的HKCancor數據集通過其格式而言是從其來源進行了基本修改的。原始數據集具有CC乘許可證。有關詳細信息,請參見github源代碼中的pycantonese/data/hkcancor/README.md 。
Rime-Cantonese數據(版本2021.05.16)被合併到pycantonese中,用於單詞分割和字符到jyut的轉換。該數據具有CC BY 4.0許可證。有關詳細信息,請參見pycantonese/data/rime_cantonese/README.md 。
pycantonese徽標是漢字粵意為廣東話,並帶有Albino.Snowman(Instagram句柄)的藝術設計。
具有寬鬆許可證的精彩資源已納入Pycantonese:
貢獻了拉的請求,錯誤報告和其他反饋的個人(按姓氏的字母順序排列):
請參閱CHANGELOG.md 。
正在開發的最新代碼可在Jacksonlele/Pycantonese的GitHub上找到。獲取此版本的實驗功能或開發:
$ git clone https://github.com/jacksonllee/pycantonese.git
$ cd pycantonese
$ pip install -e " .[dev] "運行測試和样式檢查:
$ pytest
$ flake8 src tests
$ black --check src tests構建文檔網站文件:
$ python docs/source/build_docs.py