Thai NLP -Ressource
Sammlung von NLP -Softwarebibliotheken für natürliche Sprache (natürliche Sprachverarbeitung), Wörterbücher und Korpus. Immer willkommen für Pull -Anfragen.
Bibliotheken/Dienste
Thai -Charakter -Cluster
| Bibliothek | Beschreibung | Programmiersprachen | Merkmale | Lizenz | Autor & Link |
|---|
| JTCC | Thai -Charakter -Cluster | Java | | GPL-3.0 | Wittawat |
| TCC | Thai -Charakter -Cluster | Python | | Apache 2.0 | Wannaphong |
Stimmungsanalyse
| Bibliothek | Beschreibung | Programmiersprachen | Merkmale | Lizenz | Autor & Link |
|---|
| Sentiment_analysis_thai | | | | | Jagerv3 |
Soundex
| Bibliothek | Beschreibung | Programmiersprachen | Merkmale | Lizenz | Autor & Link |
|---|
| Pythainlp | Python 3 | Lk82 + udom83 | Apache 2.0 | Korakot, Github | |
Wortsegmentierung
| Bibliothek | Beschreibung | Programmiersprachen | Merkmale | Lizenz | Autor & Link |
|---|
| Chamkho | Lao/Thai -Wortsegmentierung | Rost | LGPL | Github | |
| Cutkum | Thai -Wortsegmentierung mit tiefem Lernen im Tensorflow. Rnn. | Python | 93% F-Messung. | MIT | Pucktada, Github |
| Cutthai | Thai-Wortsegmentierung in Kaffee-Skriptbearbeitung geschrieben | Kaffeekript | | MIT | PureExe/Cutthai Github |
| Deepcut | Eine thailändische Word -Tokenization -Bibliothek mit tiefem neuronalem Netzwerk. CNN. | Python | 98,8% F-Messung. | MIT | rkcosmos, Github |
| Lexto: Thai Lexeme Tokenizer | Java | | LGPL | Nectec | |
| Lexto | Python 2 | | LGPL | Github | |
| Lexto | Python 3 | | LGPL | Github | |
| Mehrkandidat-Word-Segmentierung | Multi -Kandidaten -Wortsegmentierung für die thailändische Sprache | Python, RNN, LSTM | 97,0% F-Messung (Wortebene), 98,95% F-Messung (Grenzebene) | MIT | Papier, Github |
| Pythainlp | Python 3 | Maximale Übereinstimmung und verschiedene andere Motoren | Apache 2.0 | Github | |
| Schwad | Swath (Smart Word -Analyse für Thai) ist eine Wortsegmentierung für Thai | C | Längste Matching, Maximal Matching und Teil der Speech Bigram. | Gpl | Paisarn Charoenpornsawat, CMU |
| Synthai | Thai-Wort-Segmentierung und Speech-Tagging mit tiefem Lernen. Rnn. Lstm. | Python | 99,2% F-Messung | MIT | Kenjiroai, Github |
| Thai Sprach Toolkit (TLTK) | Basierend auf einem Papier von Wirote Aroonmanakun im Jahr 2002. Die Wortsegmentierung basiert auf einem maximalen Kollokationsansatz. Die Silbensegmentierung basiert auf 3Grams -Statistiken. (Datensatz ist enthalten) | Python | 97,86% F-Messung. (Es wurde auf einem anderen Testset getestet; es ist nicht fair, es mit anderen Modellen zu vergleichen.) | GPLV3 | Pypi |
| Wordcut | Thai Word Breaker für node.js | JavaScript, node.js | | LGPL-3.0 | Veer66, Github |
| Wordcutpy | Ein einfacher thailändischer Word -Tokenizer, der in 1 Python -Datei geschrieben wurde | Python 3 | | LGPL-3.0 | Veer66, Github |
Teil des Sprach -Tagging (POS -Tagging)
| Bibliothek | Beschreibung | Programmiersprachen | Merkmale | Lizenz | Autor & Link |
|---|
| Diagramm-Pos | Thai Pos Tagger | C | | Alle Rechte vorbehalten | AIAT, KindML, Thanaruk T. ([email protected]), Tchayintr, Demo bei IAPP |
| Jitar+Naist | Ein einfacher Trigramm HMM-Teil des Speech-Taggers | Java | | | Ver66, Jitar + Naist, 1 + naist, 2 |
| Synthai | Thai-Wort-Segmentierung und Speech-Tagging mit tiefem Lernen. Rnn. Lstm. | Python | 0,9163 F-Messung. Rnn. Lstm | MIT | Kenjiroai, Github |
Nennen Sie Entitätserkennung
| Bibliothek | Beschreibung | Programmiersprachen | Merkmale | Lizenz | Autor & Link |
|---|
| Benannte Entitäts -Tagging (thailändisches Nest) | Thai genannte Entitäts -Tagging -Spezifikation und -Tools | | | Gpl | Kindml, Siit, Aiat |
| Thainer | Thai genannte Entitätserkennung für Pythainlp | Python | | Apache 2.0 (Code) & CC für 3.0 (Datensatz) | Thainer |
Nachrichtenstruktur Tagging
| Bibliothek | Beschreibung | Programmiersprachen | Merkmale | Lizenz | Autor & Link |
|---|
| Nachrichtenstruktur -Tagging -Programm | Thai News -Struktur -Tagging -Programm | | Metadaten -Tagging, Struktur -Tagging, automatische Nachrichten Titelgenerierung | Gpl | Aiat |
Syntaktisches Parsing & Tools
| Bibliothek | Beschreibung | Programmiersprachen | Merkmale | Lizenz | Autor & Link |
|---|
| Chart-Parser | Extrahieren Sie die syntaktische Struktur aus POS -Tagged. | C | | Alle Rechte vorbehalten | AIAT, KindML, Thanaruk T. ([email protected]), Tchayintr, Demo bei IAPP |
| Grammatikverarbeitung | Beschriftete Klammern -> Kontextfreie Grammatiken (CFGs) | Python | Wahrscheinlichkeit transformieren und berechnen | | tchayintr |
Worteinbettung
| Bibliothek | Beschreibung | Programmiersprachen | Merkmale | Lizenz | Autor & Link |
|---|
| Kobkrit-Wort-Embedding | Tensorflow -Implementierung der thailändischen Worteinbettung | Python | Quellcode, Beispiel, Wortentfernungsgrafik | LGPL | Kobkrit V. |
Fragenbeantwortung (Maschinenverständnis)
| Service | Beschreibung | Lizenz | Autor & Link |
|---|
| Thai Maschinenverständnis (Thaimc) | Bidirektionaler Aufmerksamkeitfluss | Urheberrecht (als Dienst) | IAPP-AI |
Emojifikation
| Service | Beschreibung | Lizenz | Autor & Link |
|---|
| Thai Emotifikation | Lstm | Gpl | Demo bei IAPP-AI und Source, Github |
Korpus und Datensatz
Wörterbücher / Übersetzungspaare
| Bibliothek | Beschreibung | Größe | Merkmale | Lizenz | Link |
|---|
| Lexitron | Thai <--> English Dictionary | | Th-> en, en-> th | Lexitron -Lizenz | Nectec |
| Transliteration Corpus | | 31K -Paare | Thai-Eng-Übersetzungspaar | CC BY-NC-SA 3.0 TH | Nectec |
| Yaitron | Lexitron im maschinenlesbaren Format (XML) | | Th-> en, en-> th | Lexitron -Lizenz | VEER66 -Schema, Daten und Konvertierungscode |
Herunterladbarer Textkorpus
| Bibliothek | Beschreibung | Größe | Merkmale | Lizenz | Link |
|---|
| Klicken Sie auf Ködersätze | Thai -Klick -Köder -Satz | 330 gesendet. (90,7 KB) | | MIT | Wannaphongcom |
| Interbest 2009/2010 | | 5m Wörter | Wort Seg. | CC BY-NC-SA 3.0 TH | Nectec |
| ORCHIDEE | | 30k gesendet. | Word Seg., Pos Tagged. | CC BY-NC-SA 3.0 TH | Nectec |
| Premierminister 29 | Sprachstrafen von Premierminister 29 | 338KB | Wort seggled, Name Entity getaggt | MIT | Wannaphongcom |
| Thai-Jokes-Corpus | Reinigter Thai -Witzekorpus | 457 Witze | | GPLV3 | IAPP -Technologie |
| Thai genannte Unternehmen Korpora | genannte Unternehmen Corpora von Wirote Aroonmanakuns Studenten | 266 KB-1,5MB | Silbe Seg., Word Seg., benannt Entity Tagged | GPLV3 (nicht sicher, aber TLTK verwendet diese Lizenz) | นัชชา ถิระสาโรช Daten ศศิวิมล กาลันสีมา Daten ณัฐดาพร เลิศชีวะ Daten |
| Thai-Nest | Thai-Nest: Thai-benannte Entitäts-Tagging-Spezifikation und -Tools | 45k+ Name Entity Token | Name Entity Tagged | LGPL | Kindml |
| Thailändische sentimentale Wortliste | Thailändische sentimentale Wörter Liste | 52 KB | Separierte Wörter als adj, v | MIT | Wannaphongcom |
| Thai Wikipedia | Formelle Artikel | 1,49 GB (~ 213,1 MB komprimiert) | Xml | GFDL | Wikipedia |
| Thai Wordnet | Die Konstruktion von thailändischen Wordnets der ersten Ordnung gemeinsame Basiskonzepte unter Verwendung einer bidirektionalen Übersetzungsmethode und mit Wörterbüchern unterschiedlicher kompilierender Ansätze (ธนนท์ หลีน้อย)
Die Konstruktion von thailändischen Wordnets der Entität 2. Ordnung gemeinsame Basiskonzepte unter Verwendung einer bidirektionalen Übersetzungsmethode: eine Untersuchung der Vielfalt der Bedeutungen, die die Translationsgenauigkeit beeinflussen (ปริศนา อัครพุทธิพร) | | WordNet | N / A | ธนนท์ หลีน้อย 2008 ปริศนา อัครพุทธิพร Data 2008 |
| TNC Top-5000 Wörter | Wortfrequenz | 5.000 Wörter | Häufigkeit thailändischer Wörter in verschiedenen Genres, Excel | Alle Rechte vorbehalten | Chula |
| Toxizität im Thai Tweet Corpus | Tokyo Metropolitan University Natural Language Processing Group | | Jeder Tweet ist als giftig oder ungiftig markiert | CC BY-NC 4.0 | TMU-NLP |
| Wisessight Sentiment Corpus | Social -Media -Nachricht mit Sentiment -Label (positiv, neutral, negativ, Frage). | ~ 26.700 Nachrichten | Sentiment -Label, Fragenbezeichnung | Öffentlich zugängliche | Pythainlp |
Webanfragen Textkorpus
| Bibliothek | Beschreibung | Größe | Merkmale | Lizenz | Link |
|---|
| Thai National Corpus 2 | | 32m Wörter | Abfragen von Text von Genre, Domäne | Alle Rechte vorbehalten | Chula |
| Thai Medical Dokument | | 3.594 Docs | Dokument- und dynamische Keyword -Karte | Alle Rechte vorbehalten | Kindml, siit |
| Bibliothek der Südostasiatischen Sprachen | Thai -Nachrichten, Webtext, Popmusik, Literatur, Toponyme | 20m Chars | Phase um einen Suchtext | | Sealang |
| HSE THAI CORPUS | Moderne Texte in thailändischer Sprache (hauptsächlich Nachrichten -Websites) | 50 m Token | Abfrage nach Wortform, Lexeme, Übersetzung, grammatikalischen Attributen, lexikalischen Attributen | | HSE School of Linguistics |
Parallelkorpus
| Bibliothek | Beschreibung | Größe | Merkmale | Lizenz | Link |
|---|
| Talpco | Tufs Asian Language Parallel Corpus | 1327 gesendet | Open Parallel Corpus, bestehend aus japanischen Sätzen und ihren Übersetzungen in Burmesisch (Myanmar; der offiziellen Sprache der Republik der Union von Myanmar), Malaiisch (die Landessprache Malaysias, Singapur und Brunei), Indonesier, Thai, Vietnamesen und Englisch | CC um 4.0 | Talpco |
Vorausgebildete Sprachmodelle
| Vorausgebildeter Modell | Beschreibung | Größe | Abmessungen | Lizenz | Link |
|---|
| FastText | Überspringen Sie das auf Wikipedia trainierte Gram-Modell mit FastText | | 300 | CC BY-SA 3.0 | Facebook + Bin & Text + nur Text |
| Thai2fit | Ulmfit auf Wikipedia. Verwirrung von 46,80959 mit 60.002 Einbettungen. | 70 MB | 300 | MIT | thai2Vec / pythainlp |
| Thbert | Noch ein vorgebildeter Bert, insbesondere in Thai | | | Apache 2.0 | tchayintr |
Benchmarks
Thailändische Textklassifizierungsbenchmarks
- Wongnai-Corpus
- Prachathai-67K
- WiseSight-Sentiment
- TrueVoice-Intent: Ziel
Werkzeuge
Korpus -Extraktoren
| Bibliothek | Beschreibung | Programmiersprachen | Merkmale | Lizenz | Autor & Link |
|---|
| Best2010 Kocher | Ein Werkzeug zum Extrahieren segmentierter Wörter aus thailändisch segmentierten Best2010 -Korpus | Python3 | Extrahieren von segmentierten Wörtern, Merkmalen und Datenabteilungen | Apache 2.0 | tchayintr |
Nicht gefunden? Versuchen Sie, sich eine weitere thailändische thailändische großartige Liste/Ressource anzusehen (wie diese)
https://resources.aiat.or.th/
Anerkennung
- BACT - Für Vorschläge zu Lizenzwörtern.
- C4n
- Veer66
- Bi89
- Tchayintr
- PureExe
- CSTorm125
- Wannaphongcom
- Ekapolc