Listes de lemmatisation
Ce sont des paires de lemme / jetons de grande couverture à la machine dans plusieurs langues que j'ai collectées (légalement) auprès de diverses sources, principalement dans le cadre de mon travail sur le Global Glossary Project. Je les utilise pour l'expansion de la requête lors des recherches de texte complet: si un utilisateur recherche la promenade lemme, la requête est étendue pour rechercher également les jetons de marche, marche, etc.
Ce sont des fichiers texte brut (zippé). Chaque ligne contient une paire de lemme / jeton séparée par un caractère d'onglet dans cette séquence: lemme, onglet, jeton. Les fichiers sont codés dans UTF-8 avec des ruptures de ligne de style Windows.
- Asturien (AST) (108 792 paires)
- Bulgare (BG) (30 323 paires)
- Catalan (CA) (591 534 paires)
- Tchèque (CS) (36 400 paires)
- Anglais (en) (41 760 paires)
- Estonien (ET) (80 536 paires)
- Français (FR) (224 002 paires)
- Galicien (GL) (392 856 paires)
- Allemand (DE) (358 473 paires)
- Hongrois (HU) (39 898 paires)
- Irlandais (GA) (415 502 paires)
- Manx Gaelic (GV) (67 177 paires)
- Italien (IT) (341 074 paires)
- Persian / Farsi (FA) (6 273 paires)
- Polon (PL) (3 296 232 paires)
- Portugais (PT) (850 264 paires)
- Roumain (RO) (314 810 paires)
- Russe (RU) (537 810 paires)
- Gaelic écossais (GD) (51 624 paires)
- Slovaque (SK) (858 414 paires)
- Slovène (SL) (99 063 paires)
- Espagnol (ES) (497 560 paires)
- Suède (SV) (675 137 paires)
- Ukrainien (Royaume-Uni) (193 703 paires)
- Welsh (CY) (359 224 paires)
Licence
- Disponible sous la licence de base de données ouverte
Sources
- Dictionnaires de divers dictionnaires Hunspell du site Web OpenOffice.org
- Deutsches Morphologie -xikon par Daniel Naber
- Lexique par Boris New et Christophe Pallier
- e_lemma.txt par yasumasa someya
- Multipt East (seuls les lexiques morphologiques qui sont sous une licence gratuite sont utilisés)
- Dictionnaires morphologiques de la file
- Lexique morphologique de Saldo
- Base de données de morphologie nationale irlandaise
- Diverses listes de Kevin Scannell
- Openrussian.org