Recurso do NLP tailandês
Coleção de bibliotecas de software de processamento de linguagem natural tailandesa (PNL), dicionários e corpus. Sempre bem -vindo para solicitações de tração.
Bibliotecas/Serviços
Cluster de personagens tailandeses
| Biblioteca | Descrição | Linguagens de programação | Características | Licença | Autor e link |
|---|
| JTCC | Cluster de personagens tailandeses | Java | | GPL-3.0 | Wittawat |
| TCC | Cluster de personagens tailandeses | Python | | Apache 2.0 | Wannaphong |
Análise de sentimentos
| Biblioteca | Descrição | Linguagens de programação | Características | Licença | Autor e link |
|---|
| Sentiment_analysis_thai | | | | | Jagerv3 |
SoundEx
| Biblioteca | Descrição | Linguagens de programação | Características | Licença | Autor e link |
|---|
| Pythainlp | Python 3 | Lk82 + udom83 | Apache 2.0 | Korakot, Github | |
Segmentação de palavras
| Biblioteca | Descrição | Linguagens de programação | Características | Licença | Autor e link |
|---|
| Chamkho | Segmentação de palavras do Lao/Thai | Ferrugem | LGPL | Github | |
| Cutkum | Segmentação de palavras tailandesas com aprendizado profundo no tensorflow. Rnn. | Python | 93% F-mesouro. | Mit | Pucktada, Github |
| Cutthai | Segmentação de palavras tailandesas escritas em edição de script de café | S-Script de café | | Mit | Pureexe/Cutthai Github |
| Deepcut | Uma biblioteca de tokenização de palavras tailandesa usando uma rede neural profunda. CNN. | Python | 98,8% F-M-Medido. | Mit | rkcosmos, github |
| Lexto: Tokenizador de Lexeme tailandês | Java | | LGPL | NCTEC | |
| Lexto | Python 2 | | LGPL | Github | |
| Lexto | Python 3 | | LGPL | Github | |
| Segmentação multi-candidata-palavra | Segmentação de palavras com vários candidatos para a língua tailandesa | Python, RNN, LSTM | 97,0% F-mesouro (nível de palavra), 98,95% F-medasidade (nível de limite) | Mit | papel, github |
| Pythainlp | Python 3 | Correspondência máxima e vários outros motores | Apache 2.0 | Github | |
| Swath | Swath (análise de palavras inteligentes para tailandês) é uma segmentação de palavras para tailandês | C | Combinação mais longa, correspondência máxima e parte da fala da fala. | Gpl | Paisarn Charoenpornawat, CMU |
| Synthai | Segmentação de palavras tailandesas e marcação de parte de fala com aprendizado profundo. Rnn. LSTM. | Python | 99,2% F-M-Medido | Mit | Kenjiroai, Github |
| Kit de ferramentas de idioma tailandês (TLTK) | Baseado em um artigo de Firote Aroonmanakun em 2002. A segmentação de palavras é baseada em uma abordagem máxima de colocação. A segmentação da sílaba é baseada nas estatísticas de 3grams. (O conjunto de dados está incluído) | Python | 97,86% F-M-Medido. (Foi testado em um conjunto de testes diferente; não é justo compará -lo com outros modelos.) | GPLV3 | Pypi |
| WordCut | Breaker de palavra tailandesa para node.js | Javascript, node.js | | LGPL-3.0 | Veer66, Github |
| WordCutpy | Um simples tokenizador de palavras tailandesas escritas em 1 arquivo python | Python 3 | | LGPL-3.0 | Veer66, Github |
Parte da marcação de fala (marcação de POS)
| Biblioteca | Descrição | Linguagens de programação | Características | Licença | Autor e link |
|---|
| Chart-Pos | Tagger tailandês | C | | Todos os direitos reservados | Aiat, Kindml, Thanaruk T. ([email protected]), tchayintr, demonstração na IAPP |
| Jitar+Norith | Um simples tagger de parte do discurso do trigrama | Java | | | Ver66, jitar + norma |
| Synthai | Segmentação de palavras tailandesas e marcação de parte de fala com aprendizado profundo. Rnn. LSTM. | Python | 0,9163 F-M-Medido. Rnn. LSTM | Mit | Kenjiroai, Github |
Reconhecimento de entidade
| Biblioteca | Descrição | Linguagens de programação | Características | Licença | Autor e link |
|---|
| Nomeada de entidade (ninho tailandês) | Tailandesa de identificação de entidade e ferramentas de marcação de entidade | | | Gpl | Kindml, Siit, Aiat |
| Thainer | Reconhecimento de entidades nomeado tailandês para pitylp | Python | | Apache 2.0 (código) & cc por 3.0 (conjunto de dados) | Thainer |
Marcação de estrutura de notícias
| Biblioteca | Descrição | Linguagens de programação | Características | Licença | Autor e link |
|---|
| Programa de marcação de estrutura de notícias | Programa de marcação de estrutura de notícias tailandesas | | Marcação de metadados, marcação de estrutura, geração automática de títulos de notícias | Gpl | Aiat |
Parsing e ferramentas sintáticas
| Biblioteca | Descrição | Linguagens de programação | Características | Licença | Autor e link |
|---|
| Páster de gráfico | Extraia a estrutura sintática da frase marcada com POS. | C | | Todos os direitos reservados | Aiat, Kindml, Thanaruk T. ([email protected]), tchayintr, demonstração na IAPP |
| Processamento gramatical | Suportes rotulados -> Gramáticas gratuitas de contexto (CFGS) | Python | Transformar e calcular a probabilidade | | tchayintr |
Incorporação de palavras
| Biblioteca | Descrição | Linguagens de programação | Características | Licença | Autor e link |
|---|
| Kobkrit-Word-Erbedding | Implementação de tensorflow da incorporação de palavras tailandesas | Python | Código fonte, exemplo, gráfico de distância da palavra | LGPL | Kobkrit V. |
Resposta de perguntas (compreensão da máquina)
| Serviço | Descrição | Licença | Autor e link |
|---|
| Compreensão da Máquina Tailandesa (THAIMC) | Fluxo de atenção bidirecional | Direitos autorais (como o serviço) | IAPP-AI |
Emojificação
| Serviço | Descrição | Licença | Autor e link |
|---|
| Emotificação tailandesa | LSTM | Gpl | Demonstração no IAPP-AI e fonte, Github |
Corpus e conjunto de dados
Dicionários / pares de tradução
| Biblioteca | Descrição | Tamanho | Características | Licença | Link |
|---|
| Lexitron | Tailândia <-> Dicionário inglês | | Th-> en, en-> th | Licença Lexitron | NCTEC |
| Corpus de transliteração | | 31k pares | Par de tradução tailandês | CC BY-NC-SA 3.0 TH | NCTEC |
| Yaitron | Lexitron no formato legível por máquina (XML) | | Th-> en, en-> th | Licença Lexitron | Esquema Veer66, Código de Dados e Conversão |
Corpus de texto para download
| Biblioteca | Descrição | Tamanho | Características | Licença | Link |
|---|
| Clique em frases de isca | Frase de isca de clique tailandesa | 330 enviados. (90,7kb) | | Mit | Wannaphongcom |
| Inter -Best 2009/2010 | | 5m palavras | Palavra seg. | CC BY-NC-SA 3.0 TH | NCTEC |
| ORQUÍDEA | | 30k enviado. | Word Seg., POS marcado. | CC BY-NC-SA 3.0 TH | NCTEC |
| Primeiro Ministro 29 | Frases do discurso do primeiro -ministro 29 | 338kb | Palavra segged, entidade de nome marcada | Mit | Wannaphongcom |
| Thai-Jokes-Corpus | Tailândia limpo Tailândia corpus | 457 piadas | | GPLV3 | Tecnologia IAPP |
| Tailandês Nomeado Entidade Corpora | Nomeado Entity Corpora dos alunos de Firote Aroonmanakun | 266kb-1,5 MB | sílaba seg., Word Seg., Entidade nomeada marcada | GPLV3 (não tenho certeza, mas o TLTK está usando esta licença) | นัชชา ถิระสาโรช Dados ศศิวิมล กาลันสีมา Dados ณัฐดาพร เลิศชีวะ Dados |
| Tailest-nest | Tailest: Tailandês de identificação de entidade e ferramentas de marcação de entidade | 45K+ Nome Entity Token | Nome Entity Tagged | LGPL | Kindml |
| Lista de palavras sentimental tailandesa | Lista de palavras sentimentais tailandesas | 52kb | Palavras separadas como adj, v | Mit | Wannaphongcom |
| Wikipedia tailandesa | Artigos formais | 1,49 GB (~ 213,1 MB comprimido) | Xml | Gfdl | Wikipedia |
| WordNet tailandês | A construção da WordNet tailandesa da entidade de 1ª ordem conceitos de base comum usando um método de tradução bidirecional e com dicionários de diferentes abordagens compilatórias (ธนนท์ หลีน้อย)
A construção do WordNet tailandês da 2ª ordem da entidade comum conceitos de base comum usando um método de tradução bidirecional: um estudo da diversidade de significados que afetam a precisão da tradução (ปริศนา อัครพุทธิพร) | | WordNet | N / D | ธนนท์ หลีน้อย 2008 ปริศนา อัครพุทธิพร Dados 2008 |
| TOP-5000 PALAVRAS TNC | Frequência de palavras | 5.000 palavras | Frequência de palavras tailandesas em vários gêneros, Excel | Todos os direitos reservados | Chula |
| Toxicidade no Tweet Corpus tailandês | Grupo de Processamento de Linguagem Naturais da Universidade Metropolitana de Tóquio | | Cada tweet é rotulado como tóxico ou não tóxico | CC BY-NC 4.0 | TMU-NLP |
| Wisseight Sentimento Corpus | Mensagem de mídia social com rótulo de sentimento (positivo, neutro, negativo, pergunta). | ~ 26.700 mensagens | Rótulo de sentimento, rótulo de perguntas | Domínio público | Pythainlp |
Web Query Text Corpus
| Biblioteca | Descrição | Tamanho | Características | Licença | Link |
|---|
| Corpus nacional tailandês 2 | | 32m palavras | Texto de consulta por gênero, domínio | Todos os direitos reservados | Chula |
| Documento médico tailandês | | 3.594 documentos | Documento e mapa dinâmico de palavras -chave | Todos os direitos reservados | Kindml, Siit |
| Biblioteca de Idiomas do Sudeste Asiático | Notícias tailandesas, texto da web, música pop, literatura, topônimos | 20m chars | Fase em torno de um texto de pesquisa | | Sealang |
| HSE Corpus | Textos modernos escritos no idioma tailandês (principalmente sites de notícias) | 50m tokens | Consulta por forma de palavra, lexeme, tradução, atributos gramaticais, atributos lexicais | | Escola de Linguística de HSE |
Corpus paralelo
| Biblioteca | Descrição | Tamanho | Características | Licença | Link |
|---|
| Talpco | TUFS Linguagem Asiática Parallel Corpus | 1327 enviado | Corpus paralelo aberto que consiste em frases japonesas e suas traduções em birmaneses (Mianmar; o idioma oficial da República da União de Mianmar), malaio (o idioma nacional da Malásia, Cingapura e Brunei), indonésio, tailandês, vietnamita e inglês | CC por 4.0 | Talpco |
Modelos de idiomas pré-treinados
| Modelo pré-treinado | Descrição | Tamanho | Dimensões | Licença | Link |
|---|
| FastText | Modelo Skip-Gram treinado na Wikipedia usando o FastText | | 300 | CC BY-SA 3.0 | Facebook + bin & text + texto apenas |
| Thai2fit | Ulmfit na Wikipedia. Perplexidade de 46.80959 com 60.002 incorporações. | 70 MB | 300 | Mit | Thai2Vec / Pythainlp |
| Thbert | Ainda outro bert pré-treinado, particularmente em tailandês | | | Apache 2.0 | tchayintr |
Benchmarks
Benchmarks de classificação de texto tailandês
- Wongnai-Corpus
- Prachathai-67k
- Wisseight-sensação
- TrueVoice-Intent: Destino
Ferramentas
Extratores de corpus
| Biblioteca | Descrição | Linguagens de programação | Características | Licença | Autor e link |
|---|
| BEST2010 FOWER | Uma ferramenta para extrair palavras segmentadas do Tailandês Best2010 corpus | Python3 | Extraindo palavras, recursos e divisões de dados segmentados | Apache 2.0 | tchayintr |
Não encontrado? Tente olhar para outra lista/recurso incrível do NLP Thai (como este)
https://resources.aiat.or.th/
Agradecimentos
- BACT - Para sugestões sobre palavras de licença.
- C4N
- Veer66
- BI89
- Tchayintr
- Puros
- Cstorm125
- Wannaphongcom
- Ekapolc