รายการ Lemmatization
สิ่งเหล่านี้เป็นบทแทรก/โทเค็นที่สามารถอ่านได้ขนาดใหญ่ในหลายภาษาซึ่งฉันได้รวบรวม (ถูกต้องตามกฎหมาย) จากแหล่งต่าง ๆ ส่วนใหญ่เป็นส่วนหนึ่งของงานของฉันในโครงการอภิธานศัพท์ทั่วโลก ฉันใช้สิ่งเหล่านี้สำหรับการขยายแบบสอบถามในระหว่างการค้นหาแบบเต็มข้อความ: หากผู้ใช้ค้นหา Lemma Walk การสอบถามจะถูกขยายเพื่อค้นหาโทเค็นเดินเดิน ฯลฯ
เหล่านี้เป็นไฟล์ข้อความธรรมดา (ซิป) แต่ละบรรทัดมีคู่บทแทรก/โทเค็นหนึ่งคู่คั่นด้วยอักขระแท็บในลำดับนี้: บทแทรก, แท็บ, โทเค็น ไฟล์จะถูกเข้ารหัสใน UTF-8 ด้วยการแบ่งบรรทัดสไตล์ Windows
- Asturian (AST) (108,792 คู่)
- บัลแกเรีย (BG) (30,323 คู่)
- คาตาลัน (CA) (591,534 คู่)
- เช็ก (CS) (36,400 คู่)
- ภาษาอังกฤษ (EN) (41,760 คู่)
- เอสโตเนีย (ET) (80,536 คู่)
- ฝรั่งเศส (FR) (224,002 คู่)
- Galician (GL) (392,856 คู่)
- เยอรมัน (DE) (358,473 คู่)
- ฮังการี (หู) (39,898 คู่)
- ไอริช (GA) (415,502 คู่)
- Manx Gaelic (GV) (67,177 คู่)
- อิตาลี (มัน) (341,074 คู่)
- เปอร์เซีย/ฟาร์ซี (FA) (6,273 คู่)
- โปแลนด์ (PL) (3,296,232 คู่)
- โปรตุเกส (PT) (850,264 คู่)
- โรมาเนีย (RO) (314,810 คู่)
- รัสเซีย (RU) (537,810 คู่)
- Scottish Gaelic (GD) (51,624 คู่)
- Slovak (SK) (858,414 คู่)
- Slovene (SL) (99,063 คู่)
- สเปน (ES) (497,560 คู่)
- สวีเดน (SV) (675,137 คู่)
- ยูเครน (สหราชอาณาจักร) (193,703 คู่)
- เวลส์ (CY) (359,224 คู่)
ใบอนุญาต
- พร้อมใช้งานภายใต้ใบอนุญาตฐานข้อมูลแบบเปิด
แหล่งกำเนิด
- พจนานุกรม Hunspell ต่าง ๆ จากเว็บไซต์ openoffice.org
- Deutsches Morphologie-Lexikon โดย Daniel Naber
- Lexique โดย Boris New และ Christophe Pallier
- e_lemma.txt โดย yasumasa someya
- Multext East (เฉพาะคำศัพท์ทางสัณฐานวิทยาที่อยู่ภายใต้ใบอนุญาตฟรีเท่านั้น)
- พจนานุกรมสัณฐานวิทยาจาก Freeling
- Saldo Morphological Lexicon
- ฐานข้อมูลสัณฐานวิทยาแห่งชาติของไอริช
- รายการต่าง ๆ โดย Kevin Scannell
- openrussian.org