Listas de lematização
Estes são pares de lema/token de grande cobertura e legítima máquina em vários idiomas que eu colecionei (legalmente) de várias fontes, principalmente como parte do meu trabalho no Global Glossário. Eu os uso para expansão de consultas durante pesquisas de texto completo: se um usuário procurar o Lema Walk, a consulta será expandida para também procurar os tokens andando, andando etc.
Estes são arquivos de texto sem formatação (com zíper). Cada linha contém um par de lema/token separado por um caractere de guia nesta sequência: lema, guia, token. Os arquivos são codificados no UTF-8 com quebras de linha no estilo Windows.
- Asturiano (AST) (108.792 pares)
- Búlgaro (BG) (30.323 pares)
- Catalão (CA) (591.534 pares)
- Tcheca (CS) (36.400 pares)
- Inglês (en) (41.760 pares)
- Estoniano (ET) (80.536 pares)
- Francês (FR) (224.002 pares)
- Galician (GL) (392.856 pares)
- Alemão (de) (358.473 pares)
- Húngaro (HU) (39.898 pares)
- Irish (GA) (415.502 pares)
- Manx Gaelic (GV) (67.177 pares)
- Italiano (IT) (341.074 pares)
- Persa/farsi (fa) (6.273 pares)
- Polonês (PL) (3.296.232 pares)
- Português (Pt) (850.264 pares)
- Romeno (RO) (314.810 pares)
- Russo (RU) (537.810 pares)
- Gaélico escocês (GD) (51.624 pares)
- Eslovaco (SK) (858.414 pares)
- Esloveno (SL) (99.063 pares)
- Espanhol (s) (497.560 pares)
- Sueco (SV) (675.137 pares)
- Ucraniano (Reino Unido) (193.703 pares)
- Galês (CY) (359.224 pares)
Licença
- Disponível sob a licença aberta de banco de dados
Fontes
- Vários dicionários Hunspell do site OpenOffice.org
- Deutsches Morphologie-LexiKon por Daniel Naber
- Lexique de Boris New e Christophe Pallier
- e_lemma.txt por yasumasa algum
- MultExt East (apenas os léxicos morfológicos que estão sob uma licença gratuita são usados)
- Dicionários morfológicos de freeling
- Léxico morfológico de Saldo
- Banco de Dados de Morfologia Nacional Irlanda
- Várias listas de Kevin Scannell
- Openrussian.org