ดาวน์โหลด underthesea - ดาวน์โหลดซอร์สโค้ด underthesea

underthesea

ซอร์สโค้ดอื่น ๆ

Version 6.8.3

ดาวน์โหลด

เครื่องมือกระบวนการภาษาธรรมชาติของเวียดนามโอเพ่นซอร์ส

Underthesea คือ:

- ชุดเครื่องมือ NLP เวียดนาม Underthesea เป็นชุดข้อมูลโมดูล Python โอเพนซอร์สและแบบฝึกหัดที่สนับสนุนการวิจัยและพัฒนาในการประมวลผลภาษาธรรมชาติของเวียดนาม เราให้บริการ API ที่ง่ายมากในการใช้โมเดล NLP ที่ได้รับการฝึกฝนอย่างรวดเร็วกับข้อความเวียดนามของคุณเช่นการแบ่งส่วนคำ, การติดแท็กส่วนหนึ่ง (POS), ชื่อการจดจำเอนทิตี (NER), การจำแนกประเภทข้อความและการแยกวิเคราะห์การพึ่งพา

- ซอฟต์แวร์โอเพนซอร์ซ underThesea เผยแพร่ภายใต้ใบอนุญาตสาธารณะ GNU ทั่วไป v3.0 ใบอนุญาต การอนุญาตของใบอนุญาต Copyleft ที่แข็งแกร่งนี้มีเงื่อนไขในการจัดทำซอร์สโค้ดที่สมบูรณ์ของงานที่ได้รับใบอนุญาตและการแก้ไขซึ่งรวมถึงงานที่มีขนาดใหญ่ขึ้นโดยใช้งานที่ได้รับใบอนุญาตภายใต้ใบอนุญาตเดียวกัน

- สนับสนุนเรา! การสนับสนุนทุกบิตช่วยให้เราบรรลุเป้าหมายของเรา ขอบคุณมาก. -

- เฮ้ คุณเคยได้ยินเกี่ยวกับ LLMS โมเดลที่มีพื้นฐานมาหรือ ไม่? เดาอะไร? เริ่มต้นจาก underTheSea เวอร์ชัน 6.7.0 ตอนนี้คุณสามารถดำน้ำลึกด้วย คุณสมบัติสุดยอดสุด ยอดนี้สำหรับการจำแนกประเภทข้อความ! ดำน้ำและสาดน้ำ! -

การติดตั้ง

ในการติดตั้ง underTheSea เพียง:

$ pip install underthesea
?

ความพึงพอใจรับประกัน

บทเรียน

การแบ่งส่วนประโยค - การแบ่งข้อความเป็นแต่ละประโยค

การใช้งาน

 > >> from underthesea import sent_tokenize
> >> text = 'Taylor cho biết lúc đầu cô cảm thấy ngại với cô bạn thân Amanda nhưng rồi mọi thứ trôi qua nhanh chóng. Amanda cũng thoải mái với mối quan hệ này.'

> >> sent_tokenize ( text )
[
  "Taylor cho biết lúc đầu cô cảm thấy ngại với cô bạn thân Amanda nhưng rồi mọi thứ trôi qua nhanh chóng." ,
  "Amanda cũng thoải mái với mối quan hệ này."
]

Text Normalization - การเป็นมาตรฐานการแสดงข้อมูลข้อความที่เป็นมาตรฐาน

การใช้งาน

 > >> from underthesea import text_normalize
> >> text_normalize ( "Ðảm baỏ chất lựơng phòng thí nghịêm hoá học" )
"Đảm bảo chất lượng phòng thí nghiệm hóa học"

การแบ่งส่วนคำ - การแบ่งข้อความออกเป็นแต่ละคำ

การใช้งาน

 > >> from underthesea import word_tokenize
> >> text = "Chàng trai 9X Quảng Trị khởi nghiệp từ nấm sò"

> >> word_tokenize ( text )
[ "Chàng trai" , "9X" , "Quảng Trị" , "khởi nghiệp" , "từ" , "nấm" , "sò" ]

> >> word_tokenize ( sentence , format = "text" )
"Chàng_trai 9X Quảng_Trị khởi_nghiệp từ nấm sò"

> >> text = "Viện Nghiên Cứu chiến lược quốc gia về học máy"
> >> fixed_words = [ "Viện Nghiên Cứu" , "học máy" ]
> >> word_tokenize ( text , fixed_words = fixed_words )
"Viện_Nghiên_Cứu chiến_lược quốc_gia về học_máy"

POS Tagging- การติดฉลากคำด้วยส่วนหนึ่งของคำพูดของพวกเขา

การใช้งาน

 > >> from underthesea import pos_tag
> >> pos_tag ( 'Chợ thịt chó nổi tiếng ở Sài Gòn bị truy quét' )
[( 'Chợ' , 'N' ),
 ( 'thịt' , 'N' ),
 ( 'chó' , 'N' ),
 ( 'nổi tiếng' , 'A' ),
 ( 'ở' , 'E' ),
 ( 'Sài Gòn' , 'Np' ),
 ( 'bị' , 'V' ),
 ( 'truy quét' , 'V' )]

Chunking - การจัดกลุ่มคำเป็นวลีหรือหน่วยที่มีความหมาย

การใช้งาน

 > >> from underthesea import chunk
> >> text = 'Bác sĩ bây giờ có thể thản nhiên báo tin bệnh nhân bị ung thư?'
> >> chunk ( text )
[( 'Bác sĩ' , 'N' , 'B-NP' ),
 ( 'bây giờ' , 'P' , 'B-NP' ),
 ( 'có thể' , 'R' , 'O' ),
 ( 'thản nhiên' , 'A' , 'B-AP' ),
 ( 'báo' , 'V' , 'B-VP' ),
 ( 'tin' , 'N' , 'B-NP' ),
 ( 'bệnh nhân' , 'N' , 'B-NP' ),
 ( 'bị' , 'V' , 'B-VP' ),
 ( 'ung thư' , 'N' , 'B-NP' ),
 ( '?' , 'CH' , 'O' )]

การแยกวิเคราะห์การพึ่งพา - การวิเคราะห์โครงสร้างไวยากรณ์ระหว่างคำ ⚛️

⚛รูปแบบการเรียนรู้ลึก

$ pip install underthesea[deep]

 > >> from underthesea import dependency_parse
> >> text = 'Tối 29/11, Việt Nam thêm 2 ca mắc Covid-19'
> >> dependency_parse ( text )
[( 'Tối' , 5 , 'obl:tmod' ),
 ( '29/11' , 1 , 'flat:date' ),
 ( ',' , 1 , 'punct' ),
 ( 'Việt Nam' , 5 , 'nsubj' ),
 ( 'thêm' , 0 , 'root' ),
 ( '2' , 7 , 'nummod' ),
 ( 'ca' , 5 , 'obj' ),
 ( 'mắc' , 7 , 'nmod' ),
 ( 'Covid-19' , 8 , 'nummod' )]

การจดจำเอนทิตีชื่อ - การระบุเอนทิตีที่มีชื่อ (เช่นชื่อสถานที่) ⚛️

การใช้งาน

 > >> from underthesea import ner
> >> text = 'Chưa tiết lộ lịch trình tới Việt Nam của Tổng thống Mỹ Donald Trump'
> >> ner ( text )
[( 'Chưa' , 'R' , 'O' , 'O' ),
 ( 'tiết lộ' , 'V' , 'B-VP' , 'O' ),
 ( 'lịch trình' , 'V' , 'B-VP' , 'O' ),
 ( 'tới' , 'E' , 'B-PP' , 'O' ),
 ( 'Việt Nam' , 'Np' , 'B-NP' , 'B-LOC' ),
 ( 'của' , 'E' , 'B-PP' , 'O' ),
 ( 'Tổng thống' , 'N' , 'B-NP' , 'O' ),
 ( 'Mỹ' , 'Np' , 'B-NP' , 'B-LOC' ),
 ( 'Donald' , 'Np' , 'B-NP' , 'B-PER' ),
 ( 'Trump' , 'Np' , 'B-NP' , 'I-PER' )]

⚛รูปแบบการเรียนรู้ลึก

$ pip install underthesea[deep]

 > >> from underthesea import ner
> >> text = "Bộ Công Thương xóa một tổng cục, giảm nhiều đầu mối"
> >> ner ( text , deep = True )
[
  { 'entity' : 'B-ORG' , 'word' : 'Bộ' },
  { 'entity' : 'I-ORG' , 'word' : 'Công' },
  { 'entity' : 'I-ORG' , 'word' : 'Thương' }
]

การจำแนกประเภทข้อความ - การจัดหมวดหมู่ข้อความเป็นกลุ่มที่กำหนดไว้ล่วงหน้า ⚡

การใช้งาน

 > >> from underthesea import classify

> >> classify ( 'HLV đầu tiên ở Premier League bị sa thải sau 4 vòng đấu' )
[ 'The thao' ]

> >> classify ( 'Hội đồng tư vấn kinh doanh Asean vinh danh giải thưởng quốc tế' )
[ 'Kinh doanh' ]

>> classify ( 'Lãi suất từ BIDV rất ưu đãi' , domain = 'bank' )
[ 'INTEREST_RATE' ]

⚡โมเดลตามพรอมต์

$ pip install underthesea[prompt]
$ export OPENAI_API_KEY=YOUR_KEY

 > >> from underthesea import classify
> >> text = "HLV ngoại đòi gần tỷ mỗi tháng dẫn dắt tuyển Việt Nam"
> >> classify ( text , model = 'prompt' )
Thể thao

การวิเคราะห์ความเชื่อมั่น - การกำหนดโทนอารมณ์หรือความเชื่อมั่นของข้อความ

การใช้งาน

 > >> from underthesea import sentiment

> >> sentiment ( 'hàng kém chất lg,chăn đắp lên dính lông lá khắp người. thất vọng' )
'negative'
> >> sentiment ( 'Sản phẩm hơi nhỏ so với tưởng tượng nhưng chất lượng tốt, đóng gói cẩn thận.' )
'positive'

> >> sentiment ( 'Đky qua đường link ở bài viết này từ thứ 6 mà giờ chưa thấy ai lhe hết' , domain = 'bank' )
[ 'CUSTOMER_SUPPORT#negative' ]
> >> sentiment ( 'Xem lại vẫn thấy xúc động và tự hào về BIDV của mình' , domain = 'bank' )
[ 'TRADEMARK#positive' ]

Lang Detect - การระบุภาษาของข้อความ ⚛️

Lang Detect API ขอบคุณงานที่ยอดเยี่ยมจาก FastText

ติดตั้งขยายการพึ่งพาและรุ่น

 ```bash
$ pip install underthesea[langdetect]
```

ตัวอย่างการใช้ในสคริปต์

 ```python
>>> from underthesea import lang_detect

>>> lang_detect("Cựu binh Mỹ trả nhật ký nhẹ lòng khi thấy cuộc sống hòa bình tại Việt Nam")
vi
```

พูด - แปลงข้อความที่เขียนเป็นเสียงพูด ⚛️

ข้อความถึงคำพูด API ขอบคุณงานที่ยอดเยี่ยมจาก NTT123/Viettts

ติดตั้งขยายการพึ่งพาและรุ่น

 ```bash
$ pip install underthesea[wow]
$ underthesea download-model VIET_TTS_V0_4_1
```

ตัวอย่างการใช้ในสคริปต์

 ```python
>>> from underthesea.pipeline.say import say

>>> say("Cựu binh Mỹ trả nhật ký nhẹ lòng khi thấy cuộc sống hòa bình tại Việt Nam")
A new audio file named `sound.wav` will be generated.
```

ตัวอย่างการใช้งานในบรรทัดคำสั่ง

 ```sh
$ underthesea say "Cựu binh Mỹ trả nhật ký nhẹ lòng khi thấy cuộc sống hòa bình tại Việt Nam"
```

ทรัพยากร NLP เวียดนาม

รายการทรัพยากร

$ underthesea list-data
| Name                      | Type        | License | Year | Directory                          |
| ---------------------------+-------------+---------+------+------------------------------------ |
| CP_Vietnamese_VLC_v2_2022 | Plaintext   | Open    | 2023 | datasets/CP_Vietnamese_VLC_v2_2022 |
| UIT_ABSA_RESTAURANT       | Sentiment   | Open    | 2021 | datasets/UIT_ABSA_RESTAURANT       |
| UIT_ABSA_HOTEL            | Sentiment   | Open    | 2021 | datasets/UIT_ABSA_HOTEL            |
| SE_Vietnamese-UBS         | Sentiment   | Open    | 2020 | datasets/SE_Vietnamese-UBS         |
| CP_Vietnamese-UNC         | Plaintext   | Open    | 2020 | datasets/CP_Vietnamese-UNC         |
| DI_Vietnamese-UVD         | Dictionary  | Open    | 2020 | datasets/DI_Vietnamese-UVD         |
| UTS2017-BANK              | Categorized | Open    | 2017 | datasets/UTS2017-BANK              |
| VNTQ_SMALL                | Plaintext   | Open    | 2012 | datasets/LTA                       |
| VNTQ_BIG                  | Plaintext   | Open    | 2012 | datasets/LTA                       |
| VNESES                    | Plaintext   | Open    | 2012 | datasets/LTA                       |
| VNTC                      | Categorized | Open    | 2007 | datasets/VNTC                      |

$ underthesea list-data --all

ดาวน์โหลดทรัพยากร

$ underthesea download-data CP_Vietnamese_VLC_v2_2022
Resource CP_Vietnamese_VLC_v2_2022 is downloaded in ~ /.underthesea/datasets/CP_Vietnamese_VLC_v2_2022 folder