lemmatization 목록
이것들은 대규모 인사, 기계로 읽을 수있는 레마/토큰 쌍이며 여러 언어로 여러 언어로 (법적으로), 대부분 글로벌 용어집 프로젝트에 대한 작업의 일환으로 (법적으로) 수집했습니다. 전체 텍스트 검색 중에 쿼리 확장에 이들을 사용합니다. 사용자가 Lemma Walk를 검색하면 쿼리가 확장되어 토큰 워킹, 워킹 등을 검색합니다.
이들은 일반 텍스트 파일 (ZIPPER)입니다. 각 라인에는이 순서에서 탭 문자로 분리 된 Lemma/Token 쌍이 포함되어 있습니다 : Lemma, Tab, Token. 파일은 Wind
- Asturian (AST) (108,792 쌍)
- 불가리아 (BG) (30,323 쌍)
- 카탈로니아 (CA) (591,534 쌍)
- 체코 (CS) (36,400 쌍)
- 영어 (en) (41,760 쌍)
- 에스토니아 (ET) (80,536 쌍)
- 프랑스어 (FR) (224,002 쌍)
- 갈리시아어 (GL) (392,856 쌍)
- 독일어 (DE) (358,473 쌍)
- 헝가리어 (HU) (39,898 쌍)
- 아일랜드 (GA) (415,502 쌍)
- Manx Gaelic (GV) (67,177 쌍)
- 이탈리아 (IT) (341,074 쌍)
- 페르시아/파시 (FA) (6,273 쌍)
- 폴란드어 (PL) (3,296,232 쌍)
- 포르투갈어 (PT) (850,264 쌍)
- 루마니아 (RO) (314,810 쌍)
- 러시아어 (RU) (537,810 쌍)
- Scottish Gaelic (GD) (51,624 쌍)
- 슬로바키아 (SK) (858,414 쌍)
- 슬로베니아 (SL) (99,063 쌍)
- 스페인어 (ES) (497,560 쌍)
- 스웨덴어 (SV) (675,137 쌍)
- 우크라이나 (영국) (193,703 쌍)
- 웨일스 어 (CY) (359,224 쌍)
특허
- 공개 데이터베이스 라이센스에 따라 사용할 수 있습니다
출처
- OpenOffice.org 웹 사이트의 다양한 Hunspell 사전
- Daniel Naber의 Deutsches Morphologie-Flexikon
- Boris New와 Christophe Pallier의 Lexique
- yasumasa someya의 e_lemma.txt
- Multext East (무료 라이센스 아래에있는 형태 학적 사전 만 사용됩니다)
- 프리 링의 형태 학적 사전
- 살도 형태 학적 사전
- 아일랜드 국가 형태 데이터베이스
- Kevin Scannell의 다양한 목록
- Openrussian.org