underthesea
Version 6.8.3
Underthesea是:
?越南NLP工具包。 TheSea是一套开源Python模块数据集和支持越南自然语言处理的研发的教程。我们提供了非常简单的API,可以快速将预贴的NLP模型应用于您的越南文本,例如单词分割,言论部分标记(POS),命名实体识别(NER),文本分类和依赖关系解析。
?开源软件。 TheSea Underthesea由GNU通用公共许可证v3.0许可发布。此强副本许可证的权限以提供许可作品和修改的完整源代码为条件,其中包括使用许可工作的较大作品,并在同一许可下使用许可工作。
?支持我们!每个支持都可以帮助我们实现目标。太感谢了。 ???
?嘿!您是否听说过基于及时的型号LLM ?好吧,猜怎么着?从第6.7.0版的第6.7.0版开始,您现在可以使用此超酷功能深入研究文本分类!潜入并溅出! ?
在TheSea下安装,简单地:
$ pip install underthesea
?满意,保证。
用法
> >> from underthesea import sent_tokenize
> >> text = 'Taylor cho biết lúc đầu cô cảm thấy ngại với cô bạn thân Amanda nhưng rồi mọi thứ trôi qua nhanh chóng. Amanda cũng thoải mái với mối quan hệ này.'
> >> sent_tokenize ( text )
[
"Taylor cho biết lúc đầu cô cảm thấy ngại với cô bạn thân Amanda nhưng rồi mọi thứ trôi qua nhanh chóng." ,
"Amanda cũng thoải mái với mối quan hệ này."
]用法
> >> from underthesea import text_normalize
> >> text_normalize ( "Ðảm baỏ chất lựơng phòng thí nghịêm hoá học" )
"Đảm bảo chất lượng phòng thí nghiệm hóa học"用法
> >> from underthesea import word_tokenize
> >> text = "Chàng trai 9X Quảng Trị khởi nghiệp từ nấm sò"
> >> word_tokenize ( text )
[ "Chàng trai" , "9X" , "Quảng Trị" , "khởi nghiệp" , "từ" , "nấm" , "sò" ]
> >> word_tokenize ( sentence , format = "text" )
"Chàng_trai 9X Quảng_Trị khởi_nghiệp từ nấm sò"
> >> text = "Viện Nghiên Cứu chiến lược quốc gia về học máy"
> >> fixed_words = [ "Viện Nghiên Cứu" , "học máy" ]
> >> word_tokenize ( text , fixed_words = fixed_words )
"Viện_Nghiên_Cứu chiến_lược quốc_gia về học_máy"用法
> >> from underthesea import pos_tag
> >> pos_tag ( 'Chợ thịt chó nổi tiếng ở Sài Gòn bị truy quét' )
[( 'Chợ' , 'N' ),
( 'thịt' , 'N' ),
( 'chó' , 'N' ),
( 'nổi tiếng' , 'A' ),
( 'ở' , 'E' ),
( 'Sài Gòn' , 'Np' ),
( 'bị' , 'V' ),
( 'truy quét' , 'V' )]用法
> >> from underthesea import chunk
> >> text = 'Bác sĩ bây giờ có thể thản nhiên báo tin bệnh nhân bị ung thư?'
> >> chunk ( text )
[( 'Bác sĩ' , 'N' , 'B-NP' ),
( 'bây giờ' , 'P' , 'B-NP' ),
( 'có thể' , 'R' , 'O' ),
( 'thản nhiên' , 'A' , 'B-AP' ),
( 'báo' , 'V' , 'B-VP' ),
( 'tin' , 'N' , 'B-NP' ),
( 'bệnh nhân' , 'N' , 'B-NP' ),
( 'bị' , 'V' , 'B-VP' ),
( 'ung thư' , 'N' , 'B-NP' ),
( '?' , 'CH' , 'O' )]⚛️⚛️深度学习模型
$ pip install underthesea[deep] > >> from underthesea import dependency_parse
> >> text = 'Tối 29/11, Việt Nam thêm 2 ca mắc Covid-19'
> >> dependency_parse ( text )
[( 'Tối' , 5 , 'obl:tmod' ),
( '29/11' , 1 , 'flat:date' ),
( ',' , 1 , 'punct' ),
( 'Việt Nam' , 5 , 'nsubj' ),
( 'thêm' , 0 , 'root' ),
( '2' , 7 , 'nummod' ),
( 'ca' , 5 , 'obj' ),
( 'mắc' , 7 , 'nmod' ),
( 'Covid-19' , 8 , 'nummod' )] ⚛️用法
> >> from underthesea import ner
> >> text = 'Chưa tiết lộ lịch trình tới Việt Nam của Tổng thống Mỹ Donald Trump'
> >> ner ( text )
[( 'Chưa' , 'R' , 'O' , 'O' ),
( 'tiết lộ' , 'V' , 'B-VP' , 'O' ),
( 'lịch trình' , 'V' , 'B-VP' , 'O' ),
( 'tới' , 'E' , 'B-PP' , 'O' ),
( 'Việt Nam' , 'Np' , 'B-NP' , 'B-LOC' ),
( 'của' , 'E' , 'B-PP' , 'O' ),
( 'Tổng thống' , 'N' , 'B-NP' , 'O' ),
( 'Mỹ' , 'Np' , 'B-NP' , 'B-LOC' ),
( 'Donald' , 'Np' , 'B-NP' , 'B-PER' ),
( 'Trump' , 'Np' , 'B-NP' , 'I-PER' )]⚛️深度学习模型
$ pip install underthesea[deep] > >> from underthesea import ner
> >> text = "Bộ Công Thương xóa một tổng cục, giảm nhiều đầu mối"
> >> ner ( text , deep = True )
[
{ 'entity' : 'B-ORG' , 'word' : 'Bộ' },
{ 'entity' : 'I-ORG' , 'word' : 'Công' },
{ 'entity' : 'I-ORG' , 'word' : 'Thương' }
]⚡用法
> >> from underthesea import classify
> >> classify ( 'HLV đầu tiên ở Premier League bị sa thải sau 4 vòng đấu' )
[ 'The thao' ]
> >> classify ( 'Hội đồng tư vấn kinh doanh Asean vinh danh giải thưởng quốc tế' )
[ 'Kinh doanh' ]
>> classify ( 'Lãi suất từ BIDV rất ưu đãi' , domain = 'bank' )
[ 'INTEREST_RATE' ]⚡基于及时的模型
$ pip install underthesea[prompt]
$ export OPENAI_API_KEY=YOUR_KEY > >> from underthesea import classify
> >> text = "HLV ngoại đòi gần tỷ mỗi tháng dẫn dắt tuyển Việt Nam"
> >> classify ( text , model = 'prompt' )
Thể thao用法
> >> from underthesea import sentiment
> >> sentiment ( 'hàng kém chất lg,chăn đắp lên dính lông lá khắp người. thất vọng' )
'negative'
> >> sentiment ( 'Sản phẩm hơi nhỏ so với tưởng tượng nhưng chất lượng tốt, đóng gói cẩn thận.' )
'positive'
> >> sentiment ( 'Đky qua đường link ở bài viết này từ thứ 6 mà giờ chưa thấy ai lhe hết' , domain = 'bank' )
[ 'CUSTOMER_SUPPORT#negative' ]
> >> sentiment ( 'Xem lại vẫn thấy xúc động và tự hào về BIDV của mình' , domain = 'bank' )
[ 'TRADEMARK#positive' ]⚛️Lang检测API。多亏了FastText的出色工作
安装扩展依赖项和模型
```bash
$ pip install underthesea[langdetect]
```
脚本中的用法示例
```python
>>> from underthesea import lang_detect
>>> lang_detect("Cựu binh Mỹ trả nhật ký nhẹ lòng khi thấy cuộc sống hòa bình tại Việt Nam")
vi
```
⚛️文字到语音API。多亏了NTT123/VIETTTS的出色工作
安装扩展依赖项和模型
```bash
$ pip install underthesea[wow]
$ underthesea download-model VIET_TTS_V0_4_1
```
脚本中的用法示例
```python
>>> from underthesea.pipeline.say import say
>>> say("Cựu binh Mỹ trả nhật ký nhẹ lòng khi thấy cuộc sống hòa bình tại Việt Nam")
A new audio file named `sound.wav` will be generated.
```
用法示例在命令行中
```sh
$ underthesea say "Cựu binh Mỹ trả nhật ký nhẹ lòng khi thấy cuộc sống hòa bình tại Việt Nam"
```
列出资源
$ underthesea list-data
| Name | Type | License | Year | Directory |
| ---------------------------+-------------+---------+------+------------------------------------ |
| CP_Vietnamese_VLC_v2_2022 | Plaintext | Open | 2023 | datasets/CP_Vietnamese_VLC_v2_2022 |
| UIT_ABSA_RESTAURANT | Sentiment | Open | 2021 | datasets/UIT_ABSA_RESTAURANT |
| UIT_ABSA_HOTEL | Sentiment | Open | 2021 | datasets/UIT_ABSA_HOTEL |
| SE_Vietnamese-UBS | Sentiment | Open | 2020 | datasets/SE_Vietnamese-UBS |
| CP_Vietnamese-UNC | Plaintext | Open | 2020 | datasets/CP_Vietnamese-UNC |
| DI_Vietnamese-UVD | Dictionary | Open | 2020 | datasets/DI_Vietnamese-UVD |
| UTS2017-BANK | Categorized | Open | 2017 | datasets/UTS2017-BANK |
| VNTQ_SMALL | Plaintext | Open | 2012 | datasets/LTA |
| VNTQ_BIG | Plaintext | Open | 2012 | datasets/LTA |
| VNESES | Plaintext | Open | 2012 | datasets/LTA |
| VNTC | Categorized | Open | 2007 | datasets/VNTC |
$ underthesea list-data --all下载资源
$ underthesea download-data CP_Vietnamese_VLC_v2_2022
Resource CP_Vietnamese_VLC_v2_2022 is downloaded in ~ /.underthesea/datasets/CP_Vietnamese_VLC_v2_2022 folder您想在TheSea Development下做出贡献吗?伟大的!请在贡献中阅读更多详细信息。
如果您发现该项目有帮助并且想支持我们的工作,那么您可以为我们购买咖啡。
您的支持是我们最大的鼓励?