Ressource NLP thaïlandaise
Collection des bibliothèques de logiciels de traitement du langage naturel thaïlandais (NLP), dictionnaires et corpus. Toujours bienvenue pour les demandes de traction.
Bibliothèques / services
Cluster de caractères thaïlandais
| Bibliothèque | Description | Langues de programmation | Caractéristiques | Licence | Auteur et lien |
|---|
| Jtcc | Cluster de caractères thaïlandais | Java | | GPL-3.0 | Wittawat |
| TCC | Cluster de caractères thaïlandais | Python | | Apache 2.0 | Wannaphong |
Analyse des sentiments
| Bibliothèque | Description | Langues de programmation | Caractéristiques | Licence | Auteur et lien |
|---|
| Sentiment_analysis_thai | | | | | Jagerv3 |
Son
| Bibliothèque | Description | Langues de programmation | Caractéristiques | Licence | Auteur et lien |
|---|
| Pythainlp | Python 3 | Lk82 + udom83 | Apache 2.0 | Korakot, Github | |
Segmentation des mots
| Bibliothèque | Description | Langues de programmation | Caractéristiques | Licence | Auteur et lien |
|---|
| Chamkho | Segmentation des mots lao / thaïlandais | Rouiller | LGPL | Github | |
| Cutkum | Segmentation des mots thaïlandais avec apprentissage en profondeur dans Tensorflow. Rnn. | Python | 93% F-Mesure. | Mit | Pucktada, github |
| Cutthai | Segmentation de mots thaï | Coffre-cadres | | Mit | PureExe / Cutthai Github |
| Tassement profond | Une bibliothèque de tokenisation thaïlandaise utilisant un réseau neuronal profond. Cnn. | Python | 98,8% F-Mesure. | Mit | rkcosmos, github |
| Lexto: Thai Lexeme Tokenizer | Java | | LGPL | Nectec | |
| Lexto | Python 2 | | LGPL | Github | |
| Lexto | Python 3 | | LGPL | Github | |
| Segmentation multi-candidats-mot | Segmentation des mots multi-candidats pour la langue thaïlandaise | Python, RNN, LSTM | 97,0% Mesure F (niveau de mots), 98,95% F-Mesure (niveau de limite) | Mit | papier, github |
| Pythainlp | Python 3 | Correspondance maximale et divers autres moteurs | Apache 2.0 | Github | |
| Andain | Swath (analyse des mots intelligents pour thaï) est une segmentation des mots pour thaï | C | Correspondant, appariement maximal le plus long et bigram de dispositif de disposition. | GPL | Paisarn Charoenpornsawat, CMU |
| Synthaï | Segmentation des mots thaïlandais et étiquetage d'une partie du discours avec l'apprentissage en profondeur. Rnn. Lstm. | Python | 99,2% | Mit | Kenjiroai, github |
| Boîtier à outils de langue thaïlandaise (TLTK) | Sur la base d'un article de Wirote Aroonmanakun en 2002. La segmentation des mots est basée sur une approche de collocation maximale. La segmentation des syllabes est basée sur les statistiques 3Grams. (L'ensemble de données est inclus) | Python | 97,86% F-Mage. (Il a été testé sur un autre test de test; il n'est pas juste de le comparer avec d'autres modèles.) | Gplv3 | PYPI |
| Barre de paroles | Breaker thaï pour node.js | Javascript, node.js | | LGPL-3.0 | veer66, github |
| WordCutpy | Un tokenizer de mots thaïlandais simple écrit dans 1 fichier python | Python 3 | | LGPL-3.0 | veer66, github |
Une partie du marquage de la parole (balisage de POS)
| Bibliothèque | Description | Langues de programmation | Caractéristiques | Licence | Auteur et lien |
|---|
| Graphique | Tagger de POS thaïlandais | C | | Tous droits réservés | AIAT, Kindml, Thanaruk T. ([email protected]), tchayintr, démo à IApp |
| Jitar + naïf | Un tagueur de partie de dis-dispeops simple hmm simple | Java | | | Ver66, Jitar + Naist, 1 + Naist, 2 |
| Synthaï | Segmentation des mots thaïlandais et étiquetage d'une partie du discours avec l'apprentissage en profondeur. Rnn. Lstm. | Python | 0,9163 F-Mesure. Rnn. LSTM | Mit | Kenjiroai, github |
Nom de la reconnaissance des entités
| Bibliothèque | Description | Langues de programmation | Caractéristiques | Licence | Auteur et lien |
|---|
| Tagging entité nommé (thaï nidium) | Spécification et outils de marquage d'entité nommé thaïlandais | | | GPL | Kindml, siit, aiat |
| Thainener | Thai nommé la reconnaissance de l'entité pour pythainlp | Python | | Apache 2.0 (code) et CC par 3.0 (ensemble de données) | Thainener |
Taging de structure de nouvelles
| Bibliothèque | Description | Langues de programmation | Caractéristiques | Licence | Auteur et lien |
|---|
| Programme de marquage de structure de nouvelles | Programme de marquage de structure de nouvelles thaïlandais | | Taggage des métadonnées, marquage de structure, génération de titre d'actualités automatiques | GPL | AIAT |
Analyse syntaxique et outils
| Bibliothèque | Description | Langues de programmation | Caractéristiques | Licence | Auteur et lien |
|---|
| Carton | Extraire la structure syntaxique de la phrase Tagged POS. | C | | Tous droits réservés | AIAT, Kindml, Thanaruk T. ([email protected]), tchayintr, démo à IApp |
| Traitement de la grammaire | Brassets étiquetés -> Grammaires gratuites de contexte (CFG) | Python | Transformer et calculer la probabilité | | tchayintr |
Incorporation de mots
| Bibliothèque | Description | Langues de programmation | Caractéristiques | Licence | Auteur et lien |
|---|
| Kobkrit-Word-Edding | Implémentation de Tensorflow de l'intégration du mot thaïlandais | Python | Code source, exemple, graphique de distance de mot | LGPL | Kobkrit V. |
Question Répondre (compréhension des machines)
| Service | Description | Licence | Auteur et lien |
|---|
| Compréhension de la machine thaïlandaise (Thaimc) | Flux d'attention bidirectionnel | Copyright (comme service) | iApp-ai |
Emojification
| Service | Description | Licence | Auteur et lien |
|---|
| Émotification thaïlandaise | LSTM | GPL | Demo à IApp-ai et Source, Github |
Corpus et ensemble de données
Dictionnaires / paires de traduction
| Bibliothèque | Description | Taille | Caractéristiques | Licence | Lien |
|---|
| Lexitron | Thai <-> Dictionnaire anglais | | Th-> en, en-> th | Licence Lexitron | Nectec |
| Corpus de translitté | | Paires de 31k | Paire de traduction thaïlandaise | CC BY-NC-SA 3.0 TH | Nectec |
| Yaitron | Lexitron en format lisible par machine (XML) | | Th-> en, en-> th | Licence Lexitron | Veer66 Schéma, données de données et de conversion |
Corpus de texte téléchargeable
| Bibliothèque | Description | Taille | Caractéristiques | Licence | Lien |
|---|
| Cliquez sur les phrases d'appâts | Phrase d'appât en clic thaï | 330 envoyé. (90,7KB) | | Mit | Wannaphongcom |
| Interbest 2009/2010 | | 5m mots | Mot seg. | CC BY-NC-SA 3.0 TH | Nectec |
| ORCHIDÉE | | 30K envoyé. | Word Seg., Pos Tagged. | CC BY-NC-SA 3.0 TH | Nectec |
| Premier ministre 29 | Consentements de discours du Premier ministre 29 | 338KB | Word Segged, Nom Entity Tagged | Mit | Wannaphongcom |
| thaï-Jokes-corpus | Corpus thaïlandais nettoyé | 457 blagues | | Gplv3 | Technologie IAPP |
| Thai Named Entity Corpra | Corporations entités nommées par les étudiants de Wirote Aroonmanakun | 266KB-1,5 Mo | Syllable Seg., Word Seg., Entité nommée Tagged | GPLV3 (pas sûr, mais TLTK utilise cette licence) | นัชชา ถิระสาโรช Données ศศิวิมล กาลันสีมา Données ณัฐดาพร เลิศชีวะ Données |
| Thaïlandais | Thai-Nest: Thai Named Entity Tagging Specification and Tools | Token d'entité 45k + nom | Nom Entity Tagged | LGPL | Kindml |
| Liste des mots sentimentaux thaïlandais | Liste des mots sentimentaux thaïlandais | 52KB | Les mots séparés comme adj, v | Mit | Wannaphongcom |
| Wikipedia thaïlandais | Articles formels | 1,49 Go (~ 213,1 Mo | Xml | Gfdl | Wikipedia |
| Word thaï | La construction du WordNet thaï du 1er Ordre des concepts de base communs à l'aide d'une méthode de traduction bidirectionnelle et avec des dictionnaires de différentes approches de compilation (ธนนท์ หลีน้อย)
La construction du word thaï du 2e ordre des concepts de base entités à l'aide d'une méthode de traduction bidirectionnelle: une étude de la diversité des significations affectant la précision de la translation (ปริศนา อัครพุทธิพร) | | WordNet | N / A | ธนนท์ หลีน้อย 2008 ปริศนา อัครพุทธิพร Données 2008 |
| TNC Top-5000 mots | Fréquence des mots | 5 000 mots | Fréquence des mots thaïlandais dans divers genres, Excel | Tous droits réservés | Chula |
| Toxicité dans le corpus tweet thaïlandais | Tokyo Metropolitan University Natural Language Processing Group | | Chaque tweet est étiqueté comme toxique ou non toxique | CC BY-NC 4.0 | TMU-NLP |
| Corpus de sensibilisation | Message des médias sociaux avec étiquette de sentiment (positif, neutre, négatif, question). | ~ 26 700 messages | Étiquette de sentiment, étiquette de questions | Domaine public | Pythainlp |
Corpus de texte de requête Web
| Bibliothèque | Description | Taille | Caractéristiques | Licence | Lien |
|---|
| Corpus national thaïlandais 2 | | 32m mots | Texte de requête par genre, domaine | Tous droits réservés | Chula |
| Document médical thaïlandais | | 3 594 documents | Document et carte clé dynamique | Tous droits réservés | Kindml, siit |
| Bibliothèque des langues d'Asie du Sud-Est | Nouvelles thaïlandaises, texte Web, musique pop, littérature, toponymes | Chars 20m | Phase autour d'un texte de recherche | | Secouer |
| Corpus hse thaïlandais | Textes modernes écrits en langue thaï (principalement des sites de nouvelles) | Jetons de 50 mètres | Requête par une forme de mots, lexème, traduction, attributs grammaticaux, attributs lexicaux | | École de linguistique HSE |
Corpus parallèle
| Bibliothèque | Description | Taille | Caractéristiques | Licence | Lien |
|---|
| Talpco | TUFS ASIAN LANGUE CORPUS PARALLER | 1327 envoyé | Corpus parallèle ouvert composé de phrases japonaises et de leurs traductions en birman (Myanmar; la langue officielle de la République de l'Union du Myanmar), malaise (la langue nationale de la Malaisie, de Singapour et du Brunei), Indonésien, Thaïlandais, Vietnamien et anglais | CC par 4.0 | Talpco |
Modèles de langue pré-formés
| Modèle pré-formé | Description | Taille | Dimensions | Licence | Lien |
|---|
| texte rapide | Modèle de saut-gramme formé sur Wikipedia à l'aide de FastText | | 300 | CC BY-SA 3.0 | Facebook + bac et texte + texte uniquement |
| thai2fit | Ulmfit sur Wikipedia. Perplexité de 46,80959 avec 60 002 incorporations. | 70 Mo | 300 | Mit | thai2vec / pythainlp |
| Thbert | Encore un autre Bert pré-formé en particulier en thaï | | | Apache 2.0 | tchayintr |
Repères
Benchmarks de classification du texte thaïlandais
- wongnai-corpus
- prachathai-67k
- Sentiment de saut
- TrueVoice-intention: destination
Outils
Extracteurs de corpus
| Bibliothèque | Description | Langues de programmation | Caractéristiques | Licence | Auteur et lien |
|---|
| Best2010 Cuiseur | Un outil pour extraire les mots segmentés du corpus Best2010 segmenté thaïlandais | Python3 | Extraction de mots, de fonctionnalités et de divisions de données segmentées | Apache 2.0 | tchayintr |
Pas trouvé? Essayez de regarder une autre liste / ressource impressionnante thaïlandaise (comme celle-ci)
https://resources.aiat.or.th/
Remerciements
- BACT - Pour des suggestions sur les mots de licence.
- C4N
- Veer66
- BI89
- Tchayintr
- Pureexe
- CSTORM125
- Wannaphongcom
- Ekapolc