태국 NLP 리소스
태국 자연 언어 처리 (NLP) 소프트웨어 라이브러리, 사전 및 코퍼스 모음. 풀 요청에 항상 환영합니다.
라이브러리/서비스
태국 캐릭터 클러스터
| 도서관 | 설명 | 프로그래밍 언어 | 특징 | 특허 | 저자 및 링크 |
|---|
| JTCC | 태국 캐릭터 클러스터 | 자바 | | GPL-3.0 | Wittawat |
| TCC | 태국 캐릭터 클러스터 | 파이썬 | | 아파치 2.0 | wannaphong |
감정 분석
| 도서관 | 설명 | 프로그래밍 언어 | 특징 | 특허 | 저자 및 링크 |
|---|
| sentiment_analysis_thai | | | | | jagerv3 |
Soundex
| 도서관 | 설명 | 프로그래밍 언어 | 특징 | 특허 | 저자 및 링크 |
|---|
| pythainlp | 파이썬 3 | LK82 + UDO83 | 아파치 2.0 | Korakot, Github | |
단어 세분화
| 도서관 | 설명 | 프로그래밍 언어 | 특징 | 특허 | 저자 및 링크 |
|---|
| Chamkho | 라오/타이어 단어 세분화 | 녹 | lgpl | github | |
| Cutkum | 텐서 플로에서 딥 러닝을 통한 태국어 단어 세분화. RNN. | 파이썬 | 93% F- 측정. | MIT | Pucktada, Github |
| Cutthai | 커피 스크립트 편집으로 작성된 태국어 단어 세분화 | 커피 스크립트 | | MIT | PureExe/Cutthai github |
| 딥 컷 | 깊은 신경망을 사용한 태국어 토큰 화 라이브러리. CNN. | 파이썬 | 98.8% F- 측정. | MIT | rkcosmos, github |
| Lexto : Thai Lexeme Tokenizer | 자바 | | lgpl | NECTEC | |
| 렉토 | 파이썬 2 | | lgpl | github | |
| 렉토 | 파이썬 3 | | lgpl | github | |
| 다중 발사 단어 세분화 | 태국어를위한 다중 후보 단어 세분화 | Python, RNN, LSTM | 97.0% F- 측정 (단어 수준), 98.95% F- 측정 (경계 레벨) | MIT | 종이, github |
| pythainlp | 파이썬 3 | 최대 일치 및 기타 다양한 엔진 | 아파치 2.0 | github | |
| 넓은 길 | Swath (태국어에 대한 스마트 단어 분석)는 태국어의 단어 세분화입니다. | 기음 | 가장 긴 일치, 최대 일치 및 부품 Bigram. | GPL | Paisarn Charoenpornsawat, CMU |
| 신타이 | 딥 러닝을 통한 태국어 세분화 및 부품 태그. RNN. lstm. | 파이썬 | 99.2% F- 측정 | MIT | Kenjiroai, Github |
| 태국어 툴킷 (TLTK) | 2002 년 Wirote Aroonmanakun의 논문을 기반으로합니다. Word Segmentation은 최대 배치 접근법을 기반으로합니다. 음절 세분화는 3Grams 통계를 기반으로합니다. (데이터 세트 포함) | 파이썬 | 97.86% F- 측정. (다른 테스트 세트에서 테스트되었습니다. 다른 모델과 비교하는 것은 공정하지 않습니다.) | GPLV3 | pypi |
| Wordcut | node.js의 태국어 단어 차단기 | JavaScript, node.js | | LGPL-3.0 | Veer66, Github |
| Wordcutpy | 1 Python 파일로 작성된 간단한 태국어 토큰 화기 | 파이썬 3 | | LGPL-3.0 | Veer66, Github |
음성 태깅의 일부 (POS 태깅)
| 도서관 | 설명 | 프로그래밍 언어 | 특징 | 특허 | 저자 및 링크 |
|---|
| 차트 포스 | 태국 POS 태거 | 기음 | | 모든 권리 보유 | Aiat, Kindml, Thanaruk T. ([email protected]), Tchayintr, IAPP의 데모 |
| jitar+naist | 간단한 Trigram hmm a-speech tagger | 자바 | | | Ver66, Jitar + Naist, 1 + naist, 2 |
| 신타이 | 딥 러닝을 통한 태국어 세분화 및 부품 태그. RNN. lstm. | 파이썬 | 0.9163 F- 측정. RNN. lstm | MIT | Kenjiroai, Github |
이름 엔티티 인식
| 도서관 | 설명 | 프로그래밍 언어 | 특징 | 특허 | 저자 및 링크 |
|---|
| 명명 된 엔티티 태깅 (태국 둥지) | 태국어는 엔티티 태깅 사양 및 도구를 지명했습니다 | | | GPL | Kindml, Siit, aiat |
| Thainer | 태국인 Pythainlp에 대한 기업 인식 명명 | 파이썬 | | Apache 2.0 (코드) 및 CC x 3.0 (데이터 세트) | Thainer |
뉴스 구조 태깅
| 도서관 | 설명 | 프로그래밍 언어 | 특징 | 특허 | 저자 및 링크 |
|---|
| 뉴스 구조 태깅 프로그램 | 태국 뉴스 구조 태깅 프로그램 | | 메타 데이터 태깅, 구조 태깅, 자동 뉴스 제목 생성 | GPL | aiat |
구문 파싱 및 도구
| 도서관 | 설명 | 프로그래밍 언어 | 특징 | 특허 | 저자 및 링크 |
|---|
| 차트 파서 | POS 태그 된 문장에서 구문 구조를 추출하십시오. | 기음 | | 모든 권리 보유 | Aiat, Kindml, Thanaruk T. ([email protected]), Tchayintr, IAPP의 데모 |
| 문법 가공 | 라벨링 된 브래킷 -> 컨텍스트 무료 문법 (CFGS) | 파이썬 | 확률을 전환하고 계산합니다 | | Tchayintr |
단어 임베딩
| 도서관 | 설명 | 프로그래밍 언어 | 특징 | 특허 | 저자 및 링크 |
|---|
| Kobrit-Word-embedding | 태국어 임베딩의 텐서 플로 구현 | 파이썬 | 소스 코드, 예제, 단어 거리 그래프 | lgpl | 코크리트 V. |
질문 응답 (기계 이해력)
| 서비스 | 설명 | 특허 | 저자 및 링크 |
|---|
| 태국 기계 이해력 (thaimc) | 양방향주의 흐름 | 저작권 (서비스로) | IAPP-AI |
분해
| 서비스 | 설명 | 특허 | 저자 및 링크 |
|---|
| 태국 감정 | lstm | GPL | IAPP-AI 및 소스의 데모, Github |
코퍼스 및 데이터 세트
사전 / 번역 쌍
| 도서관 | 설명 | 크기 | 특징 | 특허 | 링크 |
|---|
| 렉시트론 | 태국 <-> 영어 사전 | | th-> en, en-> th | Lexitron 라이센스 | NECTEC |
| 음역 코퍼스 | | 31k 쌍 | 타이 엔그 번역 쌍 | CC BY-NC-SA 3.0 TH | NECTEC |
| 예이 트론 | 기계 읽기 가능한 형식 (XML)의 Lexitron | | th-> en, en-> th | Lexitron 라이센스 | VEER66 스키마, 데이터 및 변환 코드 |
다운로드 가능한 텍스트 코퍼스
| 도서관 | 설명 | 크기 | 특징 | 특허 | 링크 |
|---|
| 미끼 문장을 클릭하십시오 | 태국은 미끼 문장을 클릭합니다 | 330 보냈습니다. (90.7KB) | | MIT | Wannaphongcom |
| Interbest 2009/2010 | | 5m 단어 | 단어 seg. | CC BY-NC-SA 3.0 TH | NECTEC |
| 난초 | | 30K를 보냈습니다. | Word seg., pos 태그. | CC BY-NC-SA 3.0 TH | NECTEC |
| 총리 29 | 총리 29의 연설 문장 | 338KB | 단어 segged, 이름 엔티티 태그 | MIT | Wannaphongcom |
| 태국 조크 코퍼스 | 태국 농담 코퍼스 청소 | 457 농담 | | GPLV3 | IAPP 기술 |
| 태국인은 Entity Corpora로 지명되었습니다 | Wirote Aroonmanakun의 학생들에 의해 Entity Corpora로 지명되었습니다 | 266KB-1.5MB | Syllable seg., Word Seg., 이름은 Entity Tagged입니다 | GPLV3 (확실하지 않지만 TLTK는이 라이센스를 사용하고 있습니다) | นัชชา นัชชา 데이터 ศศิวิมล ศศิวิมล 데이터 ณัฐดาพร ณัฐดาพร 데이터 |
| 태국어 | 태국어 : 태국어로 지명 된 엔티티 태깅 사양 및 도구 | 45K+ 이름 엔티티 토큰 | 이름 엔티티 태그 | lgpl | Kindml |
| 태국 감상적인 단어 목록 | 태국 감상적인 단어 목록 | 52KB | adj로 분리 된 단어, v | MIT | Wannaphongcom |
| 타이 위키 백과 | 공식적인 기사 | 1.49GB (~ 213.1 MB 압축) | XML | GFDL | 위키 백과 |
| 태국어 워드 넷 | 양방향 번역 방법을 사용하고 다른 편집 적 접근 방식의 사전을 사용한 1 차 엔티티 공통 기본 개념의 태국 Wordnet의 구성 (ธนนท์ หลีน้อย)
양방향 번역 방법을 사용한 제 2 차 실체 공통 기본 개념의 태국 워드넷 구성 : 번역 정확도에 영향을 미치는 의미의 다양성에 대한 연구 (ปริศนา อัครพุทธิพร) | | Wordnet | N/A | ธนนท์ 2008 ปริศนา ปริศนา 데이터 2008 |
| TNC 상위 5000 단어 | 단어 빈도 | 5,000 단어 | 다양한 장르의 태국어 단어의 빈도, Excel | 모든 권리 보유 | chula |
| 태국 트윗 코퍼스의 독성 | 도쿄 메트로폴리탄 대학 자연 언어 처리 그룹 | | 각 트윗은 독성 또는 무독성으로 표시됩니다 | CC By-NC 4.0 | TMU-NLP |
| Wisesight 감정 코퍼스 | 감정 레이블이있는 소셜 미디어 메시지 (긍정적, 중립, 부정, 질문). | ~ 26,700 메시지 | 감정 레이블, 질문 레이블 | 공개 도메인 | pythainlp |
웹 쿼리 텍스트 코퍼스
| 도서관 | 설명 | 크기 | 특징 | 특허 | 링크 |
|---|
| 태국 국립 코퍼스 2 | | 32m 단어 | 장르의 쿼리 텍스트, 도메인 | 모든 권리 보유 | chula |
| 태국 의료 문서 | | 3,594 문서 | 문서 및 동적 키워드 맵 | 모든 권리 보유 | Kindml, siit |
| 동남아시아 언어 도서관 | 태국 뉴스, 웹 텍스트, 팝 음악, 문학, 지문 | 20m 숯 | 검색 텍스트 주변의 단계 | | SEALANG |
| HSE 타이 코퍼스 | 태국어로 작성된 현대 텍스트 (주로 뉴스 웹 사이트) | 50m 토큰 | 단어 형식, Lexeme, 번역, 문법 속성, 어휘 속성에 의한 쿼리 | | HSE 언어 학부 |
평행 코퍼스
| 도서관 | 설명 | 크기 | 특징 | 특허 | 링크 |
|---|
| talpco | TUFS 아시아 언어 평행 코퍼스 | 1327 보냈습니다 | 일본 문장과 버마인 (미얀마; 미얀마 연합 공화국의 공식 언어), 말레이 (말레이시아, 싱가포르 및 브루나이), 인도네시아, 태국, 베트남 및 영어 | CC x 4.0 | talpco |
미리 훈련 된 언어 모델
| 미리 훈련 된 모델 | 설명 | 크기 | 치수 | 특허 | 링크 |
|---|
| FastText | FastText를 사용하여 Wikipedia에 대한 스킵 그램 모델 | | 300 | CC BY-SA 3.0 | Facebook + bin & text + 텍스트 만 |
| Thai2fit | Wikipedia의 Ulmfit. 60,002 개의 임베딩으로 46.80959의 당황. | 70MB | 300 | MIT | Thai2Vec / Pythainlp |
| Thbert | 또 다른 미리 훈련 된 버트 특히 태국어 | | | 아파치 2.0 | Tchayintr |
벤치 마크
태국어 텍스트 분류 벤치 마크
- Wongnai-Corpus
- Prachathai-67k
- Wisesight-Sentiment
- TrueVoice의 의도 : 목적지
도구
코퍼스 추출기
| 도서관 | 설명 | 프로그래밍 언어 | 특징 | 특허 | 저자 및 링크 |
|---|
| Best2010 쿠커 | 태국에서 세그먼트 된 Best2010 코퍼스에서 세그먼트 된 단어를 추출하는 도구 | python3 | 세그먼트 된 단어, 기능 및 데이터 부서 추출 | 아파치 2.0 | Tchayintr |
찾을 수 없습니까? 또 다른 태국 NLP Awesome List/Resource를 보려고하십시오 (이와 같이)
https://resources.aiat.or.th/
감사의 말
- BACT- 라이센스 단어에 대한 제안.
- C4N
- VEER66
- BI89
- Tchayintr
- PureExe
- CSTORM125
- Wannaphongcom
- Ekapolc