загрузка underthesea - загрузка исходного кода underthesea

underthesea

Другой исходный код

Version 6.8.3

Скачать

Инструментарий с открытым исходным кодом вьетнамского процесса естественного языка

Underthesea :

? Вьетнамский инструментарий НЛП. Underthesea - это набор наборов данных и учебных пособий с открытым исходным кодом Python, поддерживающих исследования и разработки в области обработки естественного языка вьетнамского языка. Мы предоставляем чрезвычайно простые API для быстрого применения предварительных моделей NLP к вашему вьетнамскому тексту, таким как сегментация слов, тегинга (POS) частичной речи, распознавание сущности (NER), классификация текста и анализ зависимости.

? Программное обеспечение с открытым исходным кодом. Underthesea опубликована в соответствии с общей публичной лицензией GNU V3.0. Разрешения на эту сильную лицензию Copyleft обусловлены при наличии доступного полного исходного кода лицензированных работ и модификаций, которые включают в себя более крупные работы с использованием лицензированной работы по той же лицензии.

? Поддержите нас! Каждый кусочек поддержки помогает нам достичь наших целей. Большое спасибо. ???

? Привет! Вы слышали о LLMS , на основе быстрого моделей ? Ну, угадай, что? Начиная с Underthesea версии 6.7.0, теперь вы можете глубоко погрузиться с этой супер-крутой функцией для классификации текста! Погрузитесь и сделайте всплеск! ?

Установка

Чтобы установить Underthesea, просто:

$ pip install underthesea
?

Удовлетворение, гарантированно.

Учебные пособия

Сегментация предложения - разбивая текст в отдельные предложения

Использование

 > >> from underthesea import sent_tokenize
> >> text = 'Taylor cho biết lúc đầu cô cảm thấy ngại với cô bạn thân Amanda nhưng rồi mọi thứ trôi qua nhanh chóng. Amanda cũng thoải mái với mối quan hệ này.'

> >> sent_tokenize ( text )
[
  "Taylor cho biết lúc đầu cô cảm thấy ngại với cô bạn thân Amanda nhưng rồi mọi thứ trôi qua nhanh chóng." ,
  "Amanda cũng thoải mái với mối quan hệ này."
]

Нормализация текста - стандартизация текстового представления данных

Использование

 > >> from underthesea import text_normalize
> >> text_normalize ( "Ðảm baỏ chất lựơng phòng thí nghịêm hoá học" )
"Đảm bảo chất lượng phòng thí nghiệm hóa học"

Сегментация слов - разделение текста на отдельные слова

Использование

 > >> from underthesea import word_tokenize
> >> text = "Chàng trai 9X Quảng Trị khởi nghiệp từ nấm sò"

> >> word_tokenize ( text )
[ "Chàng trai" , "9X" , "Quảng Trị" , "khởi nghiệp" , "từ" , "nấm" , "sò" ]

> >> word_tokenize ( sentence , format = "text" )
"Chàng_trai 9X Quảng_Trị khởi_nghiệp từ nấm sò"

> >> text = "Viện Nghiên Cứu chiến lược quốc gia về học máy"
> >> fixed_words = [ "Viện Nghiên Cứu" , "học máy" ]
> >> word_tokenize ( text , fixed_words = fixed_words )
"Viện_Nghiên_Cứu chiến_lược quốc_gia về học_máy"

POS Tagging -Маркировка слов своей частью речи

Использование

 > >> from underthesea import pos_tag
> >> pos_tag ( 'Chợ thịt chó nổi tiếng ở Sài Gòn bị truy quét' )
[( 'Chợ' , 'N' ),
 ( 'thịt' , 'N' ),
 ( 'chó' , 'N' ),
 ( 'nổi tiếng' , 'A' ),
 ( 'ở' , 'E' ),
 ( 'Sài Gòn' , 'Np' ),
 ( 'bị' , 'V' ),
 ( 'truy quét' , 'V' )]

Chunking - группировка слов в значимые фразы или единицы

Использование

 > >> from underthesea import chunk
> >> text = 'Bác sĩ bây giờ có thể thản nhiên báo tin bệnh nhân bị ung thư?'
> >> chunk ( text )
[( 'Bác sĩ' , 'N' , 'B-NP' ),
 ( 'bây giờ' , 'P' , 'B-NP' ),
 ( 'có thể' , 'R' , 'O' ),
 ( 'thản nhiên' , 'A' , 'B-AP' ),
 ( 'báo' , 'V' , 'B-VP' ),
 ( 'tin' , 'N' , 'B-NP' ),
 ( 'bệnh nhân' , 'N' , 'B-NP' ),
 ( 'bị' , 'V' , 'B-VP' ),
 ( 'ung thư' , 'N' , 'B-NP' ),
 ( '?' , 'CH' , 'O' )]

РАЗРЕШЕНИЕ ДЕЙСТВЕННОСТИ - Анализ грамматической структуры между словами ⚛️

⚛ Модель глубокого обучения

$ pip install underthesea[deep]

 > >> from underthesea import dependency_parse
> >> text = 'Tối 29/11, Việt Nam thêm 2 ca mắc Covid-19'
> >> dependency_parse ( text )
[( 'Tối' , 5 , 'obl:tmod' ),
 ( '29/11' , 1 , 'flat:date' ),
 ( ',' , 1 , 'punct' ),
 ( 'Việt Nam' , 5 , 'nsubj' ),
 ( 'thêm' , 0 , 'root' ),
 ( '2' , 7 , 'nummod' ),
 ( 'ca' , 5 , 'obj' ),
 ( 'mắc' , 7 , 'nmod' ),
 ( 'Covid-19' , 8 , 'nummod' )]

Названное признание сущности - идентификация названных сущностей (например, имена, местоположения) ⚛️

Использование

 > >> from underthesea import ner
> >> text = 'Chưa tiết lộ lịch trình tới Việt Nam của Tổng thống Mỹ Donald Trump'
> >> ner ( text )
[( 'Chưa' , 'R' , 'O' , 'O' ),
 ( 'tiết lộ' , 'V' , 'B-VP' , 'O' ),
 ( 'lịch trình' , 'V' , 'B-VP' , 'O' ),
 ( 'tới' , 'E' , 'B-PP' , 'O' ),
 ( 'Việt Nam' , 'Np' , 'B-NP' , 'B-LOC' ),
 ( 'của' , 'E' , 'B-PP' , 'O' ),
 ( 'Tổng thống' , 'N' , 'B-NP' , 'O' ),
 ( 'Mỹ' , 'Np' , 'B-NP' , 'B-LOC' ),
 ( 'Donald' , 'Np' , 'B-NP' , 'B-PER' ),
 ( 'Trump' , 'Np' , 'B-NP' , 'I-PER' )]

⚛ Модель глубокого обучения

$ pip install underthesea[deep]

 > >> from underthesea import ner
> >> text = "Bộ Công Thương xóa một tổng cục, giảm nhiều đầu mối"
> >> ner ( text , deep = True )
[
  { 'entity' : 'B-ORG' , 'word' : 'Bộ' },
  { 'entity' : 'I-ORG' , 'word' : 'Công' },
  { 'entity' : 'I-ORG' , 'word' : 'Thương' }
]

Текстовая классификация - категоризация текста в предопределенные группы ⚡

Использование

 > >> from underthesea import classify

> >> classify ( 'HLV đầu tiên ở Premier League bị sa thải sau 4 vòng đấu' )
[ 'The thao' ]

> >> classify ( 'Hội đồng tư vấn kinh doanh Asean vinh danh giải thưởng quốc tế' )
[ 'Kinh doanh' ]

>> classify ( 'Lãi suất từ BIDV rất ưu đãi' , domain = 'bank' )
[ 'INTEREST_RATE' ]

⚡ Модель на основе быстрого на основе быстрого

$ pip install underthesea[prompt]
$ export OPENAI_API_KEY=YOUR_KEY

 > >> from underthesea import classify
> >> text = "HLV ngoại đòi gần tỷ mỗi tháng dẫn dắt tuyển Việt Nam"
> >> classify ( text , model = 'prompt' )
Thể thao

Анализ настроений - определение эмоционального тона или чувства текста

Использование

 > >> from underthesea import sentiment

> >> sentiment ( 'hàng kém chất lg,chăn đắp lên dính lông lá khắp người. thất vọng' )
'negative'
> >> sentiment ( 'Sản phẩm hơi nhỏ so với tưởng tượng nhưng chất lượng tốt, đóng gói cẩn thận.' )
'positive'

> >> sentiment ( 'Đky qua đường link ở bài viết này từ thứ 6 mà giờ chưa thấy ai lhe hết' , domain = 'bank' )
[ 'CUSTOMER_SUPPORT#negative' ]
> >> sentiment ( 'Xem lại vẫn thấy xúc động và tự hào về BIDV của mình' , domain = 'bank' )
[ 'TRADEMARK#positive' ]

LANG DETECTE - Идентификация языка текста ⚛️

Ланг обнаружил API. Спасибо потрясающей работе из Fasttext

Установить расширенные зависимости и модели

 ```bash
$ pip install underthesea[langdetect]
```

Примеры использования в сценарии

 ```python
>>> from underthesea import lang_detect

>>> lang_detect("Cựu binh Mỹ trả nhật ký nhẹ lòng khi thấy cuộc sống hòa bình tại Việt Nam")
vi
```

Скажи - преобразование письменного текста в разглашенный звук ⚛️

Текст на речь API. Спасибо потрясающей работе от NTT123/Viettts

Установить расширенные зависимости и модели

 ```bash
$ pip install underthesea[wow]
$ underthesea download-model VIET_TTS_V0_4_1
```

Примеры использования в сценарии

 ```python
>>> from underthesea.pipeline.say import say

>>> say("Cựu binh Mỹ trả nhật ký nhẹ lòng khi thấy cuộc sống hòa bình tại Việt Nam")
A new audio file named `sound.wav` will be generated.
```

Примеры использования в командной строке

 ```sh
$ underthesea say "Cựu binh Mỹ trả nhật ký nhẹ lòng khi thấy cuộc sống hòa bình tại Việt Nam"
```

Вьетнамские ресурсы НЛП

Список ресурсов

$ underthesea list-data
| Name                      | Type        | License | Year | Directory                          |
| ---------------------------+-------------+---------+------+------------------------------------ |
| CP_Vietnamese_VLC_v2_2022 | Plaintext   | Open    | 2023 | datasets/CP_Vietnamese_VLC_v2_2022 |
| UIT_ABSA_RESTAURANT       | Sentiment   | Open    | 2021 | datasets/UIT_ABSA_RESTAURANT       |
| UIT_ABSA_HOTEL            | Sentiment   | Open    | 2021 | datasets/UIT_ABSA_HOTEL            |
| SE_Vietnamese-UBS         | Sentiment   | Open    | 2020 | datasets/SE_Vietnamese-UBS         |
| CP_Vietnamese-UNC         | Plaintext   | Open    | 2020 | datasets/CP_Vietnamese-UNC         |
| DI_Vietnamese-UVD         | Dictionary  | Open    | 2020 | datasets/DI_Vietnamese-UVD         |
| UTS2017-BANK              | Categorized | Open    | 2017 | datasets/UTS2017-BANK              |
| VNTQ_SMALL                | Plaintext   | Open    | 2012 | datasets/LTA                       |
| VNTQ_BIG                  | Plaintext   | Open    | 2012 | datasets/LTA                       |
| VNESES                    | Plaintext   | Open    | 2012 | datasets/LTA                       |
| VNTC                      | Categorized | Open    | 2007 | datasets/VNTC                      |

$ underthesea list-data --all

Загрузить ресурсы

$ underthesea download-data CP_Vietnamese_VLC_v2_2022
Resource CP_Vietnamese_VLC_v2_2022 is downloaded in ~ /.underthesea/datasets/CP_Vietnamese_VLC_v2_2022 folder

В будущем

Автоматическое распознавание речи
Машинный перевод
Агент Чатбота

Внося

Вы хотите внести свой вклад в развитие недостатки? Большой! Пожалуйста, прочитайте больше подробно

? Поддержите нас

Если вы нашли этот проект полезным и хотите поддержать нашу работу, вы можете просто купить нам кофе ☕.

Ваша поддержка - наша самая большая поддержка?

Расширять

Дополнительная информация

Версия Version 6.8.3
Тип Другой исходный код
Время обновления 2025-04-18
размер 74.22MB
От Github

Связанные приложения

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

underthesea

Инструментарий с открытым исходным кодом вьетнамского процесса естественного языка

Установка

Учебные пособия

В будущем

Внося

? Поддержите нас

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express