Sumber Daya NLP Thailand
Koleksi Perpustakaan Perangkat Lunak, Kamus, dan Corpus Perangkat Lunak Bahasa Natural Thailand (NLP). Selalu selamat datang untuk permintaan tarik.
Perpustakaan/Layanan
Cluster karakter Thailand
| Perpustakaan | Keterangan | Bahasa pemrograman | Fitur | Lisensi | Penulis & Tautan |
|---|
| JTCC | Cluster karakter Thailand | Jawa | | GPL-3.0 | Wittawat |
| TCC | Cluster karakter Thailand | Python | | Apache 2.0 | Wannaphong |
Analisis sentimen
| Perpustakaan | Keterangan | Bahasa pemrograman | Fitur | Lisensi | Penulis & Tautan |
|---|
| sentimen_analysis_thai | | | | | Jagerv3 |
Soundex
| Perpustakaan | Keterangan | Bahasa pemrograman | Fitur | Lisensi | Penulis & Tautan |
|---|
| Pythainlp | Python 3 | LK82 + UDOM83 | Apache 2.0 | Korakot, GitHub | |
Segmentasi kata
| Perpustakaan | Keterangan | Bahasa pemrograman | Fitur | Lisensi | Penulis & Tautan |
|---|
| Chamkho | Segmentasi kata Lao/Thailand | Karat | LGPL | GitHub | |
| Cutkum | Segmentasi kata Thailand dengan pembelajaran yang mendalam di tensorflow. Rnn. | Python | 93% F-Ceasure. | Mit | Pucktada, GitHub |
| Cutthai | Segmentasi kata Thailand ditulis dalam edit skrip kopi | Skrip kopi | | Mit | Pureexe/Cutthai GitHub |
| Deepcut | Perpustakaan Tokenisasi Kata Thailand menggunakan jaringan saraf dalam. CNN. | Python | 98,8% F-Measure. | Mit | RKCOSMOS, GitHub |
| Lexto: Thai Lexeme Tokenizer | Jawa | | LGPL | Nectec | |
| Lexto | Python 2 | | LGPL | GitHub | |
| Lexto | Python 3 | | LGPL | GitHub | |
| Multi-Candidate-Word-Semmentation | Segmentasi kata multi kandidat untuk bahasa Thailand | Python, rnn, lstm | 97,0% F-Measure (Level Word), 98,95% F-Measure (Level Batas) | Mit | Kertas, GitHub |
| Pythainlp | Python 3 | Pencocokan maksimal dan berbagai mesin lainnya | Apache 2.0 | GitHub | |
| Petak | SWATH (Analisis Kata Cerdas untuk Thailand) adalah segmentasi kata untuk Thailand | C | Pencocokan terpanjang, pencocokan maksimal, dan bagian Bigram bagian-dari-kata. | Gpl | Paisarn Charoenpornsawat, CMU |
| Synthai | Segmentasi kata Thailand dan penandaan sebagian dengan pembelajaran mendalam. Rnn. LSTM. | Python | 99,2% f-ukur | Mit | Kenjiroai, GitHub |
| Thai Language Toolkit (TLTK) | Berdasarkan makalah oleh Wirote Aroonmanakun pada tahun 2002. Segmentasi kata didasarkan pada pendekatan kolokasi maksimum. Segmentasi suku kata didasarkan pada statistik 3Grams. (Dataset disertakan) | Python | 97,86% F-Measure. (Itu diuji pada testset yang berbeda; tidak adil untuk membandingkannya dengan model lain.) | Gplv3 | Pypi |
| Wordcut | Thai Word Breaker untuk Node.js | Javascript, node.js | | LGPL-3.0 | Veer66, GitHub |
| wordcutpy | Tokenizer kata Thailand sederhana yang ditulis dalam 1 file python | Python 3 | | LGPL-3.0 | Veer66, GitHub |
Bagian dari penandaan ucapan (penandaan POS)
| Perpustakaan | Keterangan | Bahasa pemrograman | Fitur | Lisensi | Penulis & Tautan |
|---|
| Bagan-Pos | Thai Pos Tagger | C | | Semua hak dilindungi undang -undang | Aiat, Kindml, Thanaruk T. ([email protected]), tchayintr, demo di iapp |
| Jitar+Naist | Tagger bagian-of-speech trigram sederhana | Jawa | | | Ver66, jitar + naist, 1 + naist, 2 |
| Synthai | Segmentasi kata Thailand dan penandaan sebagian dengan pembelajaran mendalam. Rnn. LSTM. | Python | 0.9163 F-Measure. Rnn. LSTM | Mit | Kenjiroai, GitHub |
Pengakuan Entitas Nama
| Perpustakaan | Keterangan | Bahasa pemrograman | Fitur | Lisensi | Penulis & Tautan |
|---|
| Tagging entitas bernama (Thai Nest) | Spesifikasi dan alat penandaan Entitas yang Dinamai | | | Gpl | Kindml, siit, aiat |
| Thainer | Thai yang Dinamai Entity Recognition for Pythainlp | Python | | Apache 2.0 (kode) & CC dengan 3.0 (dataset) | Thainer |
Penandaan Struktur Berita
| Perpustakaan | Keterangan | Bahasa pemrograman | Fitur | Lisensi | Penulis & Tautan |
|---|
| Program Penandaan Struktur Berita | Program Penandaan Struktur Berita Thailand | | Tagging metadata, penandaan struktur, generasi judul berita otomatis | Gpl | Aiat |
Parsing & alat sintaksis
| Perpustakaan | Keterangan | Bahasa pemrograman | Fitur | Lisensi | Penulis & Tautan |
|---|
| Bagan-Parser | Ekstrak struktur sintaksis dari kalimat yang ditandai POS. | C | | Semua hak dilindungi undang -undang | Aiat, Kindml, Thanaruk T. ([email protected]), tchayintr, demo di iapp |
| Pemrosesan tata bahasa | Braket berlabel -> Context Free Grammars (CFGS) | Python | Mengubah dan menghitung probabilitas | | tchayintr |
Kata embedding
| Perpustakaan | Keterangan | Bahasa pemrograman | Fitur | Lisensi | Penulis & Tautan |
|---|
| Kobkrit-word-embedding | Implementasi TensorFlow dari kata embedding kata Thailand | Python | Kode sumber, contoh, grafik jarak kata | LGPL | Kobkrit V. |
PERTANYAAN PERTANYAAN (Pemahaman Mesin)
| Melayani | Keterangan | Lisensi | Penulis & Tautan |
|---|
| Pemahaman Mesin Thailand (Thaimc) | Aliran perhatian dua arah | Hak cipta (sebagai layanan) | iapp-ai |
Emojifikasi
| Melayani | Keterangan | Lisensi | Penulis & Tautan |
|---|
| Emosi Thailand | LSTM | Gpl | Demo di iapp-ai dan sumber, github |
Corpus dan dataset
Kamus / Pasangan Terjemahan
| Perpustakaan | Keterangan | Ukuran | Fitur | Lisensi | Link |
|---|
| Lexitron | Thai <--> Kamus Bahasa Inggris | | Th-> en, en-> th | Lisensi lexitron | Nectec |
| Corpus transliterasi | | 31K Pasangan | Pasangan terjemahan Thailand-Eng | Cc by-nc-sa 3.0 th | Nectec |
| Yaitron | Lexitron dalam format mesin yang dapat dibaca (XML) | | Th-> en, en-> th | Lisensi lexitron | Skema, data & kode konversi veer66 |
Corpus teks yang dapat diunduh
| Perpustakaan | Keterangan | Ukuran | Fitur | Lisensi | Link |
|---|
| Klik kalimat umpan | Kalimat umpan klik Thailand | 330 dikirim. (90.7kb) | | Mit | Wannaphongcom |
| Interbest 2009/2010 | | Kata 5m | Kata seg. | Cc by-nc-sa 3.0 th | Nectec |
| ANGGREK | | 30K dikirim. | Kata seg., Pos ditandai. | Cc by-nc-sa 3.0 th | Nectec |
| Perdana Menteri 29 | Kalimat Pidato Perdana Menteri 29 | 338KB | Kata disembunyikan, nama entitas ditandai | Mit | Wannaphongcom |
| Thai-Jokes-Corpus | Corpus lelucon Thailand yang dibersihkan | 457 lelucon | | Gplv3 | Teknologi IAPP |
| Thailand Named Entity Corpora | Named Entity Corpora oleh siswa Wirote Aroonmanakun | 266KB-1.5MB | Silable Seg., Word Seg., Named Entity Tagged | Gplv3 (tidak yakin, tetapi tltk menggunakan lisensi ini) | นัชชา ถิระสาโรช data ศศิวิมล กาลันสีมา data ณัฐดาพร เลิศชีวะ data |
| Thai-snest | Thai-sarang: Thailand bernama spesifikasi dan alat penandaan entitas | 45k+ Token Entitas Nama | Name Entity Tagged | LGPL | Kindml |
| Daftar kata sentimental Thailand | Daftar Kata Sentimental Thailand | 52kb | Kata -kata terpisah sebagai adj, v | Mit | Wannaphongcom |
| Thai Wikipedia | Artikel formal | 1.49GB (~ 213.1 MB terkompresi) | Xml | Gfdl | Wikipedia |
| Wordnet Thailand | Konstruksi wordnet Thailand dari entitas urutan pertama konsep dasar umum menggunakan metode terjemahan dua arah dan dengan kamus dari pendekatan kompilasi yang berbeda (ธนนท์ หลีน้อย)
Konstruksi wordnet Thailand dari entitas orde ke-2 Konsep dasar umum menggunakan metode terjemahan dua arah: Studi tentang keragaman makna yang mempengaruhi akurasi translasi (ปริศนา อัครพุทธิพร) | | WordNet | N/a | ธนนท์ หลีน้อย 2008 ปริศนา อัครพุทธิพร Data 2008 |
| TNC Top-5000 kata | Frekuensi kata | 5.000 kata | Frekuensi kata -kata Thailand dalam berbagai genre, excel | Semua hak dilindungi undang -undang | Chula |
| Toksisitas dalam korpus tweet Thailand | Kelompok Pemrosesan Bahasa Alami Universitas Metropolitan Tokyo | | Setiap tweet diberi label beracun atau tidak beracun | CC BY-NC 4.0 | TMU-NLP |
| Corpus sentimen wise. | Pesan media sosial dengan label sentimen (positif, netral, negatif, pertanyaan). | ~ 26.700 pesan | Label sentimen, label pertanyaan | Domain publik | Pythainlp |
Corpus Teks Permintaan Web
| Perpustakaan | Keterangan | Ukuran | Fitur | Lisensi | Link |
|---|
| Thai National Corpus 2 | | Kata 32m | Kueri teks berdasarkan genre, domain | Semua hak dilindungi undang -undang | Chula |
| Dokumen Medis Thailand | | 3.594 dokumen | Dokumen dan peta kata kunci dinamis | Semua hak dilindungi undang -undang | Kindml, siit |
| Perpustakaan Bahasa Asia Tenggara | Berita Thailand, Teks Web, Musik Pop, Sastra, Toponim | 20m chars | Fase di sekitar teks pencarian | | Sealang |
| HSE Thai Corpus | Teks modern yang ditulis dalam bahasa Thailand (kebanyakan situs web berita) | Token 50m | Formulir Query by Word, lexeme, terjemahan, atribut tata bahasa, atribut leksikal | | Sekolah Linguistik HSE |
Corpus paralel
| Perpustakaan | Keterangan | Ukuran | Fitur | Lisensi | Link |
|---|
| Talpco | Corpus Paralel Bahasa Asia | 1327 dikirim | Korpus paralel terbuka yang terdiri dari hukuman Jepang dan terjemahannya ke Burma (Myanmar; bahasa resmi Republik Persatuan Myanmar), Melayu (Bahasa Nasional Malaysia, Singapura dan Brunei), Indonesia, Thailand, Vietnam dan Inggris | CC oleh 4.0 | Talpco |
Model bahasa pra-terlatih
| Model pra-terlatih | Keterangan | Ukuran | Ukuran | Lisensi | Link |
|---|
| FastText | Model Skip-Gram Dilatih di Wikipedia Menggunakan FastText | | 300 | CC BY-SA 3.0 | Facebook + bin & teks + teks saja |
| thai2fit | Ulmfit di Wikipedia. Kebingungan 46.80959 dengan 60.002 embeddings. | 70MB | 300 | Mit | thai2vec / pythainlp |
| Thbert | Bert pra-terlatih lainnya terutama di Thailand | | | Apache 2.0 | tchayintr |
Tolok ukur
Tolok ukur klasifikasi teks Thailand
- Wongnai-Corpus
- prachathai-67k
- Penyenian Wiseight
- Truevoice-Intent: Tujuan
Peralatan
Ekstraktor corpus
| Perpustakaan | Keterangan | Bahasa pemrograman | Fitur | Lisensi | Penulis & Tautan |
|---|
| Best2010 Cooker | Alat untuk mengekstraksi kata -kata tersegmentasi dari Thailand Best Corpus Thailand | Python3 | Mengekstraksi kata, fitur, dan divisi data tersegmentasi | Apache 2.0 | tchayintr |
Tidak ditemukan? Cobalah untuk melihat daftar/sumber daya NLP yang luar biasa Thailand (seperti ini)
https://resources.aiat.or.th/
Ucapan Terima Kasih
- BACT - Untuk saran tentang kata -kata lisensi.
- C4n
- Veer66
- Bi89
- Tchayintr
- Pureexe
- CSTORM125
- Wannaphongcom
- Ekapolc