Lemmatisierungslisten
Dies sind in mehreren Sprachen, die ich (legal) aus verschiedenen Quellen gesammelt habe, hauptsächlich als Teil meiner Arbeit am globalen Glossarprojekt, maschinell-lesbare Lemma/Token-Paare in mehreren Sprachen. Ich benutze diese für die Abfrageerweiterung bei FullText -Suchanfragen: Wenn ein Benutzer nach dem Lemma -Walk sucht, wird die Abfrage erweitert, um auch nach den Tokens zu suchen, zu Fuß zu gehen, usw.
Dies sind einfache Textdateien (Reißverschluss). Jede Zeile enthält ein Lemma/Token -Paar, das in dieser Sequenz durch ein Registerkartenzeichen getrennt ist: Lemma, Tab, Token. Die Dateien werden in UTF-8 mit Windows-Line-Brennungen codiert.
- Asturian (AST) (108.792 Paare)
- Bulgarisch (BG) (30.323 Paare)
- Katalanisch (CA) (591.534 Paare)
- Tschechisch (CS) (36.400 Paare)
- Englisch (EN) (41.760 Paare)
- Estnisch (ET) (80.536 Paare)
- Französisch (FR) (224.002 Paare)
- Galic (GL) (392.856 Paare)
- Deutsch (DE) (358.473 Paare)
- Ungarisch (Hu) (39.898 Paare)
- Irisch (GA) (415.502 Paare)
- Manx Gaelic (GV) (67.177 Paare)
- Italienisch (It) (341.074 Paare)
- Persisch/Farsi (FA) (6.273 Paare)
- Polnisch (PL) (3.296.232 Paare)
- Portugiesisch (PT) (850.264 Paare)
- Rumänisch (RO) (314.810 Paare)
- Russisch (Ru) (537.810 Paare)
- Schottischer Gälischer (GD) (51.624 Paare)
- Slowakische (SK) (858.414 Paare)
- Slowene (SL) (99.063 Paare)
- Spanisch (ES) (497.560 Paare)
- Schwedisch (SV) (675.137 Paare)
- Ukrainisch (UK) (193.703 Paare)
- Welsh (Cy) (359.224 Paare)
Lizenz
- Verfügbar unter der Open Database -Lizenz
Quellen
- Verschiedene Hunspell -Wörterbücher von der OpenOffice.org -Website
- Deutsches Morphologie-Lexikon von Daniel Naber
- Lexique von Boris New und Christophe Pallier
- e_lemma.txt von yasumasa irgendwann
- Multext East (nur die morphologischen Lexika, die unter einer kostenlosen Lizenz stehen, werden verwendet)
- Morphologische Wörterbücher aus Freiberufler
- Saldo Morphologisches Lexikon
- Irish National Morphology Database
- Verschiedene Listen von Kevin Scannell
- Openrussian.org