underthesea 다운로드 underthesea 소스 코드 다운로드

underthesea

기타 소스코드

Version 6.8.3

다운로드

오픈 소스 베트남 자연어 프로세스 툴킷

Underthesea 과 같습니다.

? 베트남 NLP 툴킷. Underthesea는 베트남 자연 언어 처리의 연구 및 개발을 지원하는 오픈 소스 파이썬 모듈 데이터 세트 및 튜토리얼의 제품군입니다. 우리는 단어 세분화, POS (Part-of Steech Tagging), NER (Entity Recognition), 텍스트 분류 및 종속성 구문 분석과 같은 베트남어 텍스트에 사전 전파 된 NLP 모델을 빠르게 적용 할 수있는 매우 쉬운 API를 제공합니다.

? 오픈 소스 소프트웨어. Underthesea는 GNU General Public License v3.0 라이센스에 따라 게시됩니다. 이 강력한 Copyleft 라이센스의 권한은 동일한 라이센스에 따라 라이센스 작업을 사용하는 대규모 작업을 포함하여 라이센스 작업 및 수정을 가능한 완전한 소스 코드로 만들 수 있습니다.

? 우리를 지원하십시오! 모든 지원은 목표를 달성하는 데 도움이됩니다. 매우 감사합니다. ?

? 이봐! 프롬프트 기반 모델 인 LLM 에 대해 들어 보셨습니까? 글쎄, 뭐야? Underthesea 버전 6.7.0에서 시작하여 이제 텍스트 분류를 위해이 슈퍼 쿨 기능 으로 깊이 뛰어들 수 있습니다! 다이빙을하고 스플래시를 만드세요! ?

설치

Underthesea를 설치하려면 간단히 :

$ pip install underthesea
?

만족, 보장.

튜토리얼

문장 세분화 - 텍스트를 개별 문장으로 나눕니다

용법

 > >> from underthesea import sent_tokenize
> >> text = 'Taylor cho biết lúc đầu cô cảm thấy ngại với cô bạn thân Amanda nhưng rồi mọi thứ trôi qua nhanh chóng. Amanda cũng thoải mái với mối quan hệ này.'

> >> sent_tokenize ( text )
[
  "Taylor cho biết lúc đầu cô cảm thấy ngại với cô bạn thân Amanda nhưng rồi mọi thứ trôi qua nhanh chóng." ,
  "Amanda cũng thoải mái với mối quan hệ này."
]

텍스트 정규화 - 표준화 텍스트 데이터 표현

용법

 > >> from underthesea import text_normalize
> >> text_normalize ( "Ðảm baỏ chất lựơng phòng thí nghịêm hoá học" )
"Đảm bảo chất lượng phòng thí nghiệm hóa học"

단어 세분화 - 텍스트를 개별 단어로 나눕니다

용법

 > >> from underthesea import word_tokenize
> >> text = "Chàng trai 9X Quảng Trị khởi nghiệp từ nấm sò"

> >> word_tokenize ( text )
[ "Chàng trai" , "9X" , "Quảng Trị" , "khởi nghiệp" , "từ" , "nấm" , "sò" ]

> >> word_tokenize ( sentence , format = "text" )
"Chàng_trai 9X Quảng_Trị khởi_nghiệp từ nấm sò"

> >> text = "Viện Nghiên Cứu chiến lược quốc gia về học máy"
> >> fixed_words = [ "Viện Nghiên Cứu" , "học máy" ]
> >> word_tokenize ( text , fixed_words = fixed_words )
"Viện_Nghiên_Cứu chiến_lược quốc_gia về học_máy"

POS 태깅 -말하기로 단어를 표시합니다

용법

 > >> from underthesea import pos_tag
> >> pos_tag ( 'Chợ thịt chó nổi tiếng ở Sài Gòn bị truy quét' )
[( 'Chợ' , 'N' ),
 ( 'thịt' , 'N' ),
 ( 'chó' , 'N' ),
 ( 'nổi tiếng' , 'A' ),
 ( 'ở' , 'E' ),
 ( 'Sài Gòn' , 'Np' ),
 ( 'bị' , 'V' ),
 ( 'truy quét' , 'V' )]

청킹 - 단어를 의미있는 문구 나 단위로 그룹화합니다

용법

 > >> from underthesea import chunk
> >> text = 'Bác sĩ bây giờ có thể thản nhiên báo tin bệnh nhân bị ung thư?'
> >> chunk ( text )
[( 'Bác sĩ' , 'N' , 'B-NP' ),
 ( 'bây giờ' , 'P' , 'B-NP' ),
 ( 'có thể' , 'R' , 'O' ),
 ( 'thản nhiên' , 'A' , 'B-AP' ),
 ( 'báo' , 'V' , 'B-VP' ),
 ( 'tin' , 'N' , 'B-NP' ),
 ( 'bệnh nhân' , 'N' , 'B-NP' ),
 ( 'bị' , 'V' , 'B-VP' ),
 ( 'ung thư' , 'N' , 'B-NP' ),
 ( '?' , 'CH' , 'O' )]

의존성 구문 분석 - 단어 사이의 문법 구조 분석 ⚛️

⚛️ 딥 러닝 모델

$ pip install underthesea[deep]

 > >> from underthesea import dependency_parse
> >> text = 'Tối 29/11, Việt Nam thêm 2 ca mắc Covid-19'
> >> dependency_parse ( text )
[( 'Tối' , 5 , 'obl:tmod' ),
 ( '29/11' , 1 , 'flat:date' ),
 ( ',' , 1 , 'punct' ),
 ( 'Việt Nam' , 5 , 'nsubj' ),
 ( 'thêm' , 0 , 'root' ),
 ( '2' , 7 , 'nummod' ),
 ( 'ca' , 5 , 'obj' ),
 ( 'mắc' , 7 , 'nmod' ),
 ( 'Covid-19' , 8 , 'nummod' )]

명명 된 엔티티 인식 - 지명 된 엔티티 식별 (예 : 이름, 위치) ⚛️

용법

 > >> from underthesea import ner
> >> text = 'Chưa tiết lộ lịch trình tới Việt Nam của Tổng thống Mỹ Donald Trump'
> >> ner ( text )
[( 'Chưa' , 'R' , 'O' , 'O' ),
 ( 'tiết lộ' , 'V' , 'B-VP' , 'O' ),
 ( 'lịch trình' , 'V' , 'B-VP' , 'O' ),
 ( 'tới' , 'E' , 'B-PP' , 'O' ),
 ( 'Việt Nam' , 'Np' , 'B-NP' , 'B-LOC' ),
 ( 'của' , 'E' , 'B-PP' , 'O' ),
 ( 'Tổng thống' , 'N' , 'B-NP' , 'O' ),
 ( 'Mỹ' , 'Np' , 'B-NP' , 'B-LOC' ),
 ( 'Donald' , 'Np' , 'B-NP' , 'B-PER' ),
 ( 'Trump' , 'Np' , 'B-NP' , 'I-PER' )]

⚛️ 딥 러닝 모델

$ pip install underthesea[deep]

 > >> from underthesea import ner
> >> text = "Bộ Công Thương xóa một tổng cục, giảm nhiều đầu mối"
> >> ner ( text , deep = True )
[
  { 'entity' : 'B-ORG' , 'word' : 'Bộ' },
  { 'entity' : 'I-ORG' , 'word' : 'Công' },
  { 'entity' : 'I-ORG' , 'word' : 'Thương' }
]

텍스트 분류 - 텍스트를 사전 정의 된 그룹으로 분류합니다 ⚡

용법

 > >> from underthesea import classify

> >> classify ( 'HLV đầu tiên ở Premier League bị sa thải sau 4 vòng đấu' )
[ 'The thao' ]

> >> classify ( 'Hội đồng tư vấn kinh doanh Asean vinh danh giải thưởng quốc tế' )
[ 'Kinh doanh' ]

>> classify ( 'Lãi suất từ BIDV rất ưu đãi' , domain = 'bank' )
[ 'INTEREST_RATE' ]

⚡ 프롬프트 기반 모델

$ pip install underthesea[prompt]
$ export OPENAI_API_KEY=YOUR_KEY

 > >> from underthesea import classify
> >> text = "HLV ngoại đòi gần tỷ mỗi tháng dẫn dắt tuyển Việt Nam"
> >> classify ( text , model = 'prompt' )
Thể thao

감정 분석 - 텍스트의 정서적 어조 또는 감정 결정

용법

 > >> from underthesea import sentiment

> >> sentiment ( 'hàng kém chất lg,chăn đắp lên dính lông lá khắp người. thất vọng' )
'negative'
> >> sentiment ( 'Sản phẩm hơi nhỏ so với tưởng tượng nhưng chất lượng tốt, đóng gói cẩn thận.' )
'positive'

> >> sentiment ( 'Đky qua đường link ở bài viết này từ thứ 6 mà giờ chưa thấy ai lhe hết' , domain = 'bank' )
[ 'CUSTOMER_SUPPORT#negative' ]
> >> sentiment ( 'Xem lại vẫn thấy xúc động và tự hào về BIDV của mình' , domain = 'bank' )
[ 'TRADEMARK#positive' ]

Lang 감지 - 텍스트의 언어 식별 ⚛️

Lang은 API를 감지합니다. FastText의 멋진 작업 덕분에 감사합니다

확장 종속성 및 모델을 설치하십시오

 ```bash
$ pip install underthesea[langdetect]
```

스크립트의 사용 예

 ```python
>>> from underthesea import lang_detect

>>> lang_detect("Cựu binh Mỹ trả nhật ký nhẹ lòng khi thấy cuộc sống hòa bình tại Việt Nam")
vi
```

말 - 서면 텍스트를 음성 오디오로 변환 ⚛️

연설 API 텍스트. NTT123/Viettts의 멋진 작업 덕분에

확장 종속성 및 모델을 설치하십시오

 ```bash
$ pip install underthesea[wow]
$ underthesea download-model VIET_TTS_V0_4_1
```

스크립트의 사용 예

 ```python
>>> from underthesea.pipeline.say import say

>>> say("Cựu binh Mỹ trả nhật ký nhẹ lòng khi thấy cuộc sống hòa bình tại Việt Nam")
A new audio file named `sound.wav` will be generated.
```

명령 줄의 사용 예제

 ```sh
$ underthesea say "Cựu binh Mỹ trả nhật ký nhẹ lòng khi thấy cuộc sống hòa bình tại Việt Nam"
```

베트남 NLP 자원

리소스를 나열하십시오

$ underthesea list-data
| Name                      | Type        | License | Year | Directory                          |
| ---------------------------+-------------+---------+------+------------------------------------ |
| CP_Vietnamese_VLC_v2_2022 | Plaintext   | Open    | 2023 | datasets/CP_Vietnamese_VLC_v2_2022 |
| UIT_ABSA_RESTAURANT       | Sentiment   | Open    | 2021 | datasets/UIT_ABSA_RESTAURANT       |
| UIT_ABSA_HOTEL            | Sentiment   | Open    | 2021 | datasets/UIT_ABSA_HOTEL            |
| SE_Vietnamese-UBS         | Sentiment   | Open    | 2020 | datasets/SE_Vietnamese-UBS         |
| CP_Vietnamese-UNC         | Plaintext   | Open    | 2020 | datasets/CP_Vietnamese-UNC         |
| DI_Vietnamese-UVD         | Dictionary  | Open    | 2020 | datasets/DI_Vietnamese-UVD         |
| UTS2017-BANK              | Categorized | Open    | 2017 | datasets/UTS2017-BANK              |
| VNTQ_SMALL                | Plaintext   | Open    | 2012 | datasets/LTA                       |
| VNTQ_BIG                  | Plaintext   | Open    | 2012 | datasets/LTA                       |
| VNESES                    | Plaintext   | Open    | 2012 | datasets/LTA                       |
| VNTC                      | Categorized | Open    | 2007 | datasets/VNTC                      |

$ underthesea list-data --all

리소스 다운로드

$ underthesea download-data CP_Vietnamese_VLC_v2_2022
Resource CP_Vietnamese_VLC_v2_2022 is downloaded in ~ /.underthesea/datasets/CP_Vietnamese_VLC_v2_2022 folder