Daftar Lemmatisasi
Ini adalah pasangan besar, lemma/token yang dapat dibaca mesin dalam beberapa bahasa yang telah saya kumpulkan (secara hukum) dari berbagai sumber, sebagian besar sebagai bagian dari pekerjaan saya pada proyek glosarium global. Saya menggunakan ini untuk ekspansi kueri selama pencarian fullText: Jika pengguna mencari Lemma Walk, kueri diperluas untuk juga mencari token berjalan, berjalan dll.
Ini adalah file teks biasa (zip). Setiap baris berisi satu pasangan lemma/token yang dipisahkan oleh karakter tab dalam urutan ini: lemma, tab, token. File-file tersebut dikodekan dalam UTF-8 dengan jeda garis bergaya Windows.
- Asturian (AST) (108.792 pasangan)
- Bulgaria (BG) (30.323 pasangan)
- Catalan (CA) (591.534 pasangan)
- Ceko (CS) (36.400 pasang)
- Bahasa Inggris (en) (41.760 pasang)
- Estonian (ET) (80.536 pasangan)
- Prancis (FR) (224.002 pasang)
- Galicia (GL) (392.856 pasangan)
- Jerman (DE) (358.473 pasangan)
- Hongaria (HU) (39.898 pasang)
- Irish (GA) (415.502 pasangan)
- Manx Gaelic (GV) (67.177 pasangan)
- Italia (IT) (341.074 pasangan)
- Persia/Farsi (FA) (6.273 pasangan)
- Polandia (PL) (3.296.232 pasangan)
- Portugis (PT) (850.264 pasangan)
- Rumania (RO) (314.810 pasang)
- Rusia (RU) (537.810 pasangan)
- Skotlandia Gaelic (GD) (51.624 pasang)
- Slovak (SK) (858.414 pasangan)
- Slovene (SL) (99.063 pasangan)
- Spanyol (497.560 pasang)
- Swedia (SV) (675.137 pasangan)
- Ukraina (Inggris) (193.703 pasangan)
- Welsh (CY) (359.224 pasangan)
Lisensi
- Tersedia di bawah lisensi basis data terbuka
Sumber
- Berbagai Kamus Hunspell dari situs web openOffice.org
- Deutsches Morphologie-Leksikon Oleh Daniel Naber
- Lexique oleh Boris New and Christophe Palier
- e_lemma.txt oleh yasumasa someya
- Multext East (hanya leksikon morfologis yang berada di bawah lisensi gratis yang digunakan)
- Kamus morfologis dari freeling
- Leksikon morfologis saldo
- Database Morfologi Nasional Irlandia
- Berbagai daftar oleh Kevin Scannell
- OpenRussian.org