Списки лемматизации
Это большие пары с машиной, читаемой из леммы/токенов на нескольких языках, которые я собрал (юридически) из различных источников, в основном в рамках моей работы над глобальным проектом глоссария. Я использую их для расширения запросов во время полного поиска: если пользователь ищет прогулку Lemma, запрос расширяется, чтобы также искать токеновые ходьбы, ходить и т. Д.
Это простые текстовые файлы (застегнуты). Каждая строка содержит одну пару леммы/токенов, разделенную символом вкладки в этой последовательности: лемма, вкладка, токен. Файлы закодированы в UTF-8 с разрывами в стиле Windows.
- Asturian (AST) (108 792 пары)
- Болгарский (BG) (30 323 пары)
- Каталонский (CA) (591 534 пары)
- Чешский (CS) (36 400 пар)
- Английский (en) (41 760 пар)
- Эстонский (ET) (80 536 пар)
- Французский (FR) (224 002 пары)
- Галициан (GL) (392 856 пар)
- Немецкий (DE) (358 473 пары)
- Венгерский (HU) (39 898 пары)
- Ирландский (GA) (415 502 пары)
- Manx Gaelic (GV) (67,177 пары)
- Итальянский (IT) (341 074 пары)
- Персидский/фарси (FA) (6273 пары)
- Польский (PL) (3296 232 пары)
- Португальский (PT) (850 264 пары)
- Румынский (RO) (314 810 пары)
- Русский (ru) (537 810 пар)
- Шотландский гэльский (GD) (51 624 пары)
- Словацкий (SK) (858,414 пары)
- Словен (SL) (99 063 пары)
- Испанский (ES) (497 560 пар)
- Шведский (SV) (675,137 пары)
- Украинский (Великобритания) (193 703 пары)
- Валлийский (CY) (359 224 пары)
Лицензия
- Доступно по лицензии Open Database
Источники
- Различные словари Hunspell с сайта openoffice.org
- Deutsches morphologie-lexikon от Daniel Naber
- Lexique By Boris New и Christophe Pallier
- e_lemma.txt от yasumasa someya
- Multext East (используются только те морфологические лексики, которые находятся под бесплатной лицензией)
- Морфологические словарры от фриэлинга
- Салдо морфологический лексикон
- База данных ирландской национальной морфологии
- Различные списки Кевина Сканнелла
- Openrussian.org