檸檬水列表
這些是我(合法地)從各種來源收集的幾種語言的大型,機器可讀的引理/令牌對,主要是我在全球詞彙表項目上的一部分。我在全文搜索過程中使用這些用於查詢擴展:如果用戶搜索引理步行,則查詢會擴展以搜索令牌步行,步行等。
這些是純文本文件(Zipped)。每條線包含一個在此序列中被選項卡字符隔開的引理/令牌對:引理,Tab,令牌。這些文件在UTF-8中編碼,Windows風格的線路斷路。
- Asturian(AST)(108,792對)
- 保加利亞語(BG)(30,323對)
- 加泰羅尼亞(CA)(591,534對)
- 捷克(CS)(36,400對)
- 英語(EN)(41,760雙)
- 愛沙尼亞(ET)(80,536對)
- 法語(FR)(224,002對)
- 加利西亞(GL)(392,856對)
- 德語(DE)(358,473雙)
- 匈牙利(HU)(39,898對)
- 愛爾蘭(GA)(415,502對)
- Manx Gaelic(GV)(67,177對)
- 意大利語(IT)(341,074對)
- 波斯/法爾西(FA)(6,273對)
- 拋光(PL)(3,296,232對)
- 葡萄牙(PT)(850,264對)
- 羅馬尼亞人(RO)(314,810對)
- 俄羅斯(RU)(537,810雙)
- 蘇格蘭蓋爾語(GD)(51,624對)
- 斯洛伐克(SK)(858,414對)
- 斯洛文尼(SL)(99,063對)
- 西班牙語(ES)(497,560雙)
- 瑞典(SV)(675,137對)
- 烏克蘭(英國)(193,703對)
- 威爾士(CY)(359,224對)
執照
來源
- 來自OpenOffice.org網站的各種hunspell詞典
- 丹尼爾·納伯(Daniel Naber)
- Boris New和Christophe Pallier的Lexique
- yasumasa someya的e_lemma.txt
- Multext East(僅使用了未經許可的那些形態詞典)
- 弗里利的形態詞典
- Saldo形態詞典
- 愛爾蘭民族形態數據庫
- Kevin Scannell的各種列表
- OpenRussian.org