lemmatizationリスト
これらは、主にグローバル用語集プロジェクトの作業の一環として、さまざまなソースから(法的に)収集したいくつかの言語で、大規模な機械可読補題/トークンペアです。フルテキスト検索中にこれらをクエリの拡張に使用します。ユーザーが補題の散歩を検索すると、クエリが拡張され、トークンウォーキング、ウォーキングなども検索されます。
これらはプレーンテキストファイル(zipped)です。各ラインには、このシーケンスのタブ文字で区切られた補題/トークンペアが含まれています:補題、タブ、トークン。ファイルは、WindowsスタイルのラインブレークでUTF-8でエンコードされています。
- Asturian(AST)(108,792ペア)
- ブルガリア語(BG)(30,323ペア)
- カタロニア(CA)(591,534ペア)
- チェコ(CS)(36,400ペア)
- 英語(en)(41,760ペア)
- エストニア(ET)(80,536ペア)
- フランス語(FR)(224,002ペア)
- ガリシア語(GL)(392,856ペア)
- ドイツ語(de)(358,473ペア)
- ハンガリー(hu)(39,898ペア)
- アイルランド(GA)(415,502ペア)
- Manx Gaelic(GV)(67,177ペア)
- イタリア語(それ)(341,074ペア)
- ペルシャ/ファージー(FA)(6,273ペア)
- ポリッシュ(pl)(3,296,232ペア)
- ポルトガル語(PT)(850,264ペア)
- ルーマニア(RO)(314,810ペア)
- ロシア語(ru)(537,810ペア)
- スコットランドゲーリック(GD)(51,624ペア)
- Slovak(SK)(858,414ペア)
- Slovene(SL)(99,063ペア)
- スペイン語(es)(497,560ペア)
- スウェーデン(SV)(675,137ペア)
- ウクライナ(英国)(193,703ペア)
- ウェールズ(Cy)(359,224ペア)
ライセンス
- Open Databaseライセンスで利用できます
ソース
- OpenOffice.org WebサイトのさまざまなHunspell辞書
- Daniel NaberによるDeutsches Morphologie-Lexikon
- Boris NewとChristophe PallierのLexique
- yasumasa someyaによるe_lemma.txt
- Multext East(無料ライセンスの下にある形態学的辞書のみが使用されます)
- フリーリングの形態学的辞書
- Saldo形態学的辞書
- アイルランド国立形態データベース
- Kevin Scannellによるさまざまなリスト
- OpenRussian.org