Recurso Thai NLP
Colección de bibliotecas de software, diccionarios y corpus de procesamiento de lenguaje natural tailandés (PNL). Siempre bienvenido para las solicitudes de extracción.
Bibliotecas/servicios
Clúster de personajes tailandeses
| Biblioteca | Descripción | Lenguajes de programación | Características | Licencia | Autor y enlace |
|---|
| JTCC | Clúster de personajes tailandeses | Java | | GPL-3.0 | Wittawat |
| TCC | Clúster de personajes tailandeses | Pitón | | Apache 2.0 | Wannaphong |
Análisis de sentimientos
| Biblioteca | Descripción | Lenguajes de programación | Características | Licencia | Autor y enlace |
|---|
| Sentiment_analysis_thai | | | | | Jaguerv3 |
Soundex
| Biblioteca | Descripción | Lenguajes de programación | Características | Licencia | Autor y enlace |
|---|
| Pythainl | Python 3 | LK82 + UDOM83 | Apache 2.0 | Korakot, Github | |
Segmentación de palabras
| Biblioteca | Descripción | Lenguajes de programación | Características | Licencia | Autor y enlace |
|---|
| Chamkho | Segmentación de palabras de lao/tailandés | Óxido | LGPL | Github | |
| Cutkum | Segmentación de palabras tailandesas con aprendizaje profundo en TensorFlow. Rnn. | Pitón | 93% F-Medición. | MIT | Pucktada, Github |
| Cutthai | Segmentación de palabras tailandesas escrita en edición de escritores de café | Escrutinio | | MIT | PureExe/Cutthai Github |
| Punto de vista profundo | Una biblioteca de tokenización de palabras tailandesas utilizando una red neuronal profunda. CNN. | Pitón | 98.8% F-Medición. | MIT | rkcosmos, github |
| LEXTO: Tokenizer Thai Lexeme | Java | | LGPL | Nectec | |
| Lexto | Python 2 | | LGPL | Github | |
| Lexto | Python 3 | | LGPL | Github | |
| Segmentación de palabras multimenio | Segmentación de palabras múltiples candidatas para lenguaje tailandés | Python, RNN, LSTM | 97.0% F-MASUAST (Nivel de palabra), 98.95% F-Medición (Nivel de límite) | MIT | papel, github |
| Pythainl | Python 3 | Coincidencia máxima y varios otros motores | Apache 2.0 | Github | |
| Andana | Swath (análisis de palabras inteligentes para tailandés) es una segmentación de palabras para tailandés | do | Más largo coincidencia, coincidencia máxima y parte de voz bigram. | GPL | Paísarn Charoenpornsawat, CMU |
| Sinthai | Segmentación de palabras tailandesas y etiquetado de parte de voz con aprendizaje profundo. Rnn. LSTM. | Pitón | 99.2% F-Medición | MIT | Kenjiroai, Github |
| Thai Language Toolkit (TLTK) | Basado en un artículo de Wirote Aroonmanakun en 2002. La segmentación de palabras se basa en un enfoque de colocación máximo. La segmentación de la sílaba se basa en estadísticas de 3 gramos. (Se incluye el conjunto de datos) | Pitón | 97.86% F-Medición. (Se probó en un conjunto de pruebas diferente; no es justo compararlo con otros modelos). | GPLV3 | Pypi |
| Corte de palabras | Rompedor de palabras tailandés para node.js | JavaScript, node.js | | LGPL-3.0 | Veer66, Github |
| piloteo | Un tokenizador de palabra tailandés simple escrito en 1 archivo de Python | Python 3 | | LGPL-3.0 | Veer66, Github |
Parte del etiquetado del habla (etiquetado con POS)
| Biblioteca | Descripción | Lenguajes de programación | Características | Licencia | Autor y enlace |
|---|
| Pos de la tabla | Tagger TAI POS | do | | Reservados todos los derechos | AIAT, Kindml, Thanaruk T. ([email protected]), tchayintr, demostración en IAPP |
| Jitar+naist | Un simple tagger de trigram hmm hmm | Java | | | Ver66, jitar + naist, 1 + naist, 2 |
| Sinthai | Segmentación de palabras tailandesas y etiquetado de parte de voz con aprendizaje profundo. Rnn. LSTM. | Pitón | 0.9163 F-Medición. Rnn. LSTM | MIT | Kenjiroai, Github |
Reconocimiento de entidad de nombre
| Biblioteca | Descripción | Lenguajes de programación | Características | Licencia | Autor y enlace |
|---|
| Etiquetado de entidad nombrado (nido tailandés) | Thai con nombre de entidad con nombres especificaciones y herramientas | | | GPL | Kindml, siit, aiat |
| Thainer | Reconocimiento de la entidad nombrada por Thai para Pythainl | Pitón | | Apache 2.0 (código) y CC por 3.0 (conjunto de datos) | Thainer |
Etiquetado de estructura de noticias
| Biblioteca | Descripción | Lenguajes de programación | Características | Licencia | Autor y enlace |
|---|
| Programa de etiquetado de estructura de noticias | Programa de etiquetado de estructura de noticias tailandesas | | Etiquetado de metadatos, etiquetado de estructura, generación automática de títulos de noticias | GPL | Aiat |
Análisis y herramientas sintácticas
| Biblioteca | Descripción | Lenguajes de programación | Características | Licencia | Autor y enlace |
|---|
| Parcial | Extraer estructura sintáctica de la oración etiquetada con POS. | do | | Reservados todos los derechos | AIAT, Kindml, Thanaruk T. ([email protected]), tchayintr, demostración en IAPP |
| Procesamiento de gramática | Brackets etiquetados -> Gramáticas sin contexto (CFGS) | Pitón | Transformar y calcular la probabilidad | | tchayintr |
Incrustación de palabras
| Biblioteca | Descripción | Lenguajes de programación | Características | Licencia | Autor y enlace |
|---|
| Kobkrit-Word-Embedding | Implementación de TensorFlow de la incrustación de palabras tailandesas | Pitón | Código fuente, ejemplo, gráfico de distancia de palabras | LGPL | Kobkrit V. |
Respuesta de preguntas (comprensión de la máquina)
| Servicio | Descripción | Licencia | Autor y enlace |
|---|
| Comprensión de la máquina tailandesa (Thaimc) | Flujo de atención bidireccional | Copyright (como el servicio) | IAPP-AI |
Emojificación
| Servicio | Descripción | Licencia | Autor y enlace |
|---|
| Emotificación tailandesa | LSTM | GPL | Demostración en IAPP-AI y Source, Github |
Corpus y conjunto de datos
Diccarios / parejas de traducción
| Biblioteca | Descripción | Tamaño | Características | Licencia | Enlace |
|---|
| Lexitrón | Thai <-> Diccionario inglés | | Th-> en, en-> th | Licencia de lexitron | Nectec |
| Corpus de transliteración | | 31K pares | Par de traducción de Thai-Eng | CC BY-NC-SA 3.0 TH | Nectec |
| Ala | Lexitron en formato legible a máquina (XML) | | Th-> en, en-> th | Licencia de lexitron | Código de esquema, datos y conversión VEER66 |
Corpus de texto descargable
| Biblioteca | Descripción | Tamaño | Características | Licencia | Enlace |
|---|
| Haga clic en las oraciones de cebo | Thai Click Ceba Frase | 330 enviado. (90.7kb) | | MIT | Wannaphongcom |
| Interbest 2009/2010 | | 5m palabras | Palabra seg. | CC BY-NC-SA 3.0 TH | Nectec |
| ORQUÍDEA | | 30k enviado. | Word Seg., Pos etiquetado. | CC BY-NC-SA 3.0 TH | Nectec |
| Primer Ministro 29 | Sentencias de discurso del primer ministro 29 | 338kb | Palabra seged, entidad de nombre etiquetada | MIT | Wannaphongcom |
| Tailandés-Jokes-Corpus | Corpus de chistes tailandeses limpios | 457 chistes | | GPLV3 | Tecnología IAPP |
| Tailandia nombrada en entidad corporal | Corporación de entidad nombrada por los estudiantes de Wirote Aroonmanakun | 266kb-1.5Mb | Syllable Seg., Word Seg., Entidad nombrada etiquetada | GPLV3 (no estoy seguro, pero TLTK está usando esta licencia) | นัชชา ถิระสาโรช Datos ศศิวิมล กาลันสีมา Datos ณัฐดาพร เลิศชีวะ Datos |
| Nido tailandés | Thai-Nest: Thai con nombres de entidades con nombre de entidad y herramientas | 45k+ nombre de entidad token | Entidad de nombre etiquetada | LGPL | Kindml |
| Lista de palabras sentimental tailandesa | Lista de palabras sentimentales tailandesas | 52kb | Palabras separadas como adj, v | MIT | Wannaphongcom |
| Wikipedia tailandesa | Artículos formales | 1.49GB (~ 213.1 Mb comprimido) | Xml | Gfdl | Wikipedia |
| Wordnet tailandés | La construcción de la red tailandesa de la entidad de primer orden conceptos base comunes utilizando un método de traducción bidireccional y con diccionarios de diferentes enfoques compilativos (ธนนท์ หลีน้อย หลีน้อย หลีน้อย หลีน้อย หลีน้อย)
La construcción de WordNet tailandés de la entidad de segundo orden conceptos base comunes utilizando un método de traducción bidireccional: un estudio de la diversidad de significados que afectan la precisión de la traducción (ปริศนา อัครพุทธิพร อัครพุทธิพร อัครพุทธิพร อัครพุทธิพร อัครพุทธิพร อัครพุทธิพร อัครพุทธิพร อัครพุทธิพร อัครพุทธิพร อัครพุทธิพร อัครพุทธิพร อัครพุทธิพร อัครพุทธิพร อัครพุทธิพร อัครพุทธิพร อัครพุทธิพร อัครพุทธิพร อัครพุทธิพร อัครพุทธิพร อัครพุทธิพร อัครพุทธิพร อัครพุทธิพร อัครพุทธิพร อัครพุทธิพร อัครพุทธิพร อัครพุทธิพร อัครพุทธิพร อัครพุทธิพร อัครพุทธิพร อัครพุทธิพร อัครพุทธิพร อัครพุทธิพร อัครพุทธิพร อัครพุทธิพร อัครพุทธิพร อัครพุทธิพร | | Wordnet | N / A | ธนนท์ หลีน้อย 2008 ปริศนา อัครพุทธิพร Datos 2008 |
| TNC Top-5000 palabras | Frecuencia de palabras | 5,000 palabras | Frecuencia de palabras tailandesas en varios géneros, Excel | Reservados todos los derechos | Chula |
| Toxicidad en el corpus de tweets tailandeses | Grupo de procesamiento de lenguaje natural de la Universidad Metropolitana de Tokio | | Cada tweet está etiquetado como tóxico o no tóxico | CC BY-NC 4.0 | TMU-NLP |
| Wisesight Sentiment Corpus | Mensaje en las redes sociales con etiqueta de sentimiento (positivo, neutral, negativo, pregunta). | ~ 26,700 mensajes | Etiqueta de sentimiento, etiqueta de preguntas | Dominio público | Pythainl |
Corpus de texto de consulta web
| Biblioteca | Descripción | Tamaño | Características | Licencia | Enlace |
|---|
| Corpus nacional tailandés 2 | | Palabras de 32 m | Texto de consulta por género, dominio | Reservados todos los derechos | Chula |
| Documento médico tailandés | | 3,594 documentos | Documento y mapa de palabras clave dinámicas | Reservados todos los derechos | Kindml, siit |
| Biblioteca de idiomas del sudeste asiático | Noticias tailandesas, texto web, música pop, literatura, topónimos | 20m caracteres | Fase alrededor de un texto de búsqueda | | Sellang |
| HSE Thai Corpus | Textos modernos escritos en lenguaje tailandés (principalmente sitios web de noticias) | Tokens de 50m | Consulta por forma de palabra, lexeme, traducción, atributos gramaticales, atributos léxicos | | Escuela de Lingüística HSE |
Corpus paralelo
| Biblioteca | Descripción | Tamaño | Características | Licencia | Enlace |
|---|
| Talpco | Tufs Lengua Asiática Corpus paralelo | 1327 enviado | Corpus paralelo abierto que consiste en oraciones japonesas y sus traducciones a birmano (Myanmar; el idioma oficial de la República de la Unión de Myanmar), Malay (el idioma nacional de Malasia, Singapur y Brunei), indonesia, tailandesa, vietnamita e inglesa | CC por 4.0 | Talpco |
Modelos de idiomas previamente capacitados
| Modelo previamente capacitado | Descripción | Tamaño | Dimensiones | Licencia | Enlace |
|---|
| contenedor | Modelo de omitir gramo entrenado en Wikipedia usando FastText | | 300 | CC BY-SA 3.0 | Facebook + Bin & Text + Text SOLO |
| Thai2fit | Ulmfit en Wikipedia. Perplejidad de 46.80959 con 60,002 incrustaciones. | 70 MB | 300 | MIT | Thai2vec / Pythainl |
| thbert | Otro Bert pre-entrenado particularmente en tailandés | | | Apache 2.0 | tchayintr |
Puntos de referencia
Partidos de referencia de clasificación de texto tailandés
- Wongnai-Corpus
- prachathai-67k
- asentimiento de Wisesight
- TrueVoice-Intent: Destino
Herramientas
Extractores de corpus
| Biblioteca | Descripción | Lenguajes de programación | Características | Licencia | Autor y enlace |
|---|
| Best2010 Cooker | Una herramienta para extraer palabras segmentadas del corpus best2010 segmentado tailandés | Python3 | Extracción de palabras segmentadas, características y divisiones de datos | Apache 2.0 | tchayintr |
¿Extraviado? Intenta mirar otra lista/recurso Thai NLP Awesome (como este)
https://resources.aiat.or.th/
Expresiones de gratitud
- BACT - Para sugerencias sobre palabras de licencia.
- C4N
- Veer66
- BI89
- Tchayintr
- Pureexe
- Cstorm125
- Wannaphongcom
- Ekapolc