Listas de lemmatización
Estos son pares de lema/token de gran cobertura y legibles por máquina en varios idiomas que he recopilado (legalmente) de varias fuentes, principalmente como parte de mi trabajo en el proyecto Global Glosario. Los uso para la expansión de la consulta durante las búsquedas de texto completo: si un usuario busca la caminata de lema, la consulta se expande para buscar también las tokens caminando, caminando, etc.
Estos son archivos de texto sin formato (con cremallera). Cada línea contiene un par de lema/token separado por un carácter de pestaña en esta secuencia: lema, pestaña, token. Los archivos están codificados en UTF-8 con descansos de línea de estilo Windows.
- Asturian (AST) (108,792 pares)
- Búlgaro (BG) (30,323 pares)
- Catalán (CA) (591,534 pares)
- Checo (CS) (36,400 pares)
- Inglés (EN) (41,760 pares)
- Estonia (ET) (80,536 pares)
- Francés (FR) (224,002 pares)
- Galician (GL) (392,856 pares)
- Alemán (DE) (358,473 pares)
- Húngaro (HU) (39,898 pares)
- Irlandés (GA) (415,502 pares)
- Manx Gaelic (GV) (67,177 pares)
- Italiano (IT) (341,074 pares)
- Persa/Farsi (FA) (6,273 pares)
- Polaco (PL) (3,296,232 pares)
- Portugués (PT) (850,264 pares)
- Rumano (RO) (314,810 pares)
- Ruso (Ru) (537,810 pares)
- Gaélico escocés (GD) (51,624 pares)
- Eslovaco (SK) (858,414 pares)
- Esloveno (SL) (99,063 pares)
- Español (s) (497,560 pares)
- Sueco (SV) (675,137 pares)
- Ucraniano (Reino Unido) (193,703 pares)
- Galés (CY) (359,224 pares)
Licencia
- Disponible en la licencia de base de datos abierta
Fuentes
- Varios diccionarios de Hunspell desde el sitio web de OpenteOffice.org
- Deutsches Morphologie-LExikon de Daniel Naber
- Lexique de Boris New y Christophe Pallier
- e_lemma.txt por Yasumasa Someya
- Multext East (solo se utilizan aquellos léxicos morfológicos que están bajo una licencia gratuita)
- Diccionarios morfológicos por freeling
- Léxico morfológico de saldo
- Base de datos de morfología nacional irlandesa
- Varias listas de Kevin Scannell
- OpenRussian.org