قوائم lemmatization
هذه هي الأزواج الكبيرة القابلة للقراءة للآلة/قابلة للقراءة الآلية بعدة لغات جمعتها (من الناحية القانونية) من مصادر مختلفة ، معظمها كجزء من عملي في مشروع Global Glossary. أستخدمها لتوسيع الاستعلام أثناء عمليات البحث عن النص الكامل: إذا بحث مستخدم عن Wemma Walk ، يتم توسيع الاستعلام للبحث أيضًا عن الرموز المشي ، والمشي وما إلى ذلك.
هذه ملفات نصية عادي (مضغوط). يحتوي كل سطر على زوج Lemma/Token واحد مفصولة بحرف علامة تبويب في هذا التسلسل: Lemma ، Tab ، Token. يتم ترميز الملفات في UTF-8 مع فترات أسطر على طراز Windows.
- أستوريان (AST) (108،792 أزواج)
- البلغارية (BG) (30،323 زوجًا)
- الكاتالاني (كاليفورنيا) (591،534 زوجًا)
- التشيك (CS) (36،400 زوج)
- اللغة الإنجليزية (EN) (41،760 زوجًا)
- الإستونية (ET) (80،536 زوجًا)
- الفرنسية (FR) (224،002 زوجًا)
- Galician (GL) (392،856 أزواج)
- الألمانية (DE) (358،473 زوجًا)
- المجري (HU) (39،898 زوجًا)
- الأيرلندي (GA) (415،502 زوجًا)
- Manx Gaelic (GV) (67177 زوجًا)
- الإيطالي (IT) (341،074 زوجًا)
- الفارسي/الفارسي (FA) (6،273 أزواج)
- البولندية (PL) (3،296،232 أزواج)
- البرتغالي (PT) (850،264 زوجًا)
- روماني (RO) (314،810 زوجًا)
- الروسي (RU) (537،810 زوجًا)
- اسكتلندا الغيلية (GD) (51،624 زوجًا)
- سلوفاك (SK) (858،414 زوجًا)
- سلوفيني (SL) (99،063 زوجًا)
- الإسبانية (ES) (497،560 زوجًا)
- السويدية (SV) (675137 زوجًا)
- الأوكرانية (المملكة المتحدة) (193،703 زوجًا)
- الويلزية (CY) (359،224 زوجًا)
رخصة
- متاح تحت رخصة قاعدة البيانات المفتوحة
مصادر
- قواميس مختلفة من Hunspell من موقع OpenOffice.org
- Deutsches Morphologie-lexikon بقلم دانييل نابر
- ليكسيك من بوريس نيو وكريستوف بالير
- e_lemma.txt بواسطة yasumasa someya
- Multext East (فقط تلك المعجمات المورفولوجية التي تخضع لترخيص مجاني تستخدم)
- القواميس المورفولوجية من الفريد
- معجم سالدو المورفولوجي
- قاعدة بيانات مورفولوجيا الأيرلندية الوطنية
- قوائم مختلفة لكيفن سكانيل
- OpenRussian.org