낮은 리소스 언어
낮은 자원 (인간) 언어의 보존, 개발 및 문서를위한 리소스.
일부 추정에 따르면, 7,000 ~ 현재의 언어 중 절반은 이번 세기에 멸종 될 것으로 예상됩니다. 그러나이 추세를 막거나 느리게하는 학자, 독립 학자, 조직, 지역 사회 및 개인의 많은 작업이 있습니다. 이 목록은 멸종 위기에 처한 언어를 문서화, 보존, 개발, 보존 또는 작업하는 데 유용한 오픈 소스 코드 목록을 제공하기위한 것입니다.
슬랙 그룹
우리는 라이브 토론을위한 슬랙 그룹이 있습니다. 여기에 우리와 함께!
출판
이 저장소를 설명하는 백서는 LREC 2016 CCURL 워크숍 (자원 부족 언어에 대한 협업 및 컴퓨팅)에 게시되었습니다. 이 논문은이 저장소에 있으며 papers 폴더에 있습니다. 원시 용지를 여기에서 다운로드하십시오 : 멸종 위기에 처한 언어를 제공하는 오픈 소스 코드.
기여하다
GitHub 에서이 목록을 편집하려면 여기를 클릭하십시오. 이와 관련된 내용에 대해 전혀 논의하려면 문제를 열어주십시오. 이 목록에없는 자원이없는 경우 위의 링크를 사용하거나 풀 요청을 제출하여 추가하십시오.
기고 가이드에 기고에 대한 자세한 내용이 있습니다.
일부 오프라인 용량으로 목록을 논의하는 데 관심이 있으시면 @RichardLitt와 연락하십시오. 나는 전화 나 이메일 교환을하게되어 기쁩니다.
목차
DOCTOC로 생성 된 목차
- 정의
- 일반 리포지토리
- 단일 언어 사전화 프로젝트 및 유틸리티
- 소프트웨어
- 키보드 레이아웃 구성 도우미
- 주석
- 형식 사양
- I18N 관련 저장소
- 오디오 자동화
- 텍스트 음성 (TTS)
- 자동 음성 인식 (ASR)
- 텍스트 자동화
- 실험
- 플래시 카드
- 자연어 생성
- 컴퓨팅 시스템
- 안드로이드 응용 프로그램
- 크롬 확장
- FieldDB
- 학술 연구 논문 별 저장소
- 예제 저장소
- 글꼴
- Corpora
- 조직
- 튜토리얼
- 언어 별 프로젝트
- 아프리카 어
- 알바니아
- alutiiq
- 암하라
- 바스크 사람
- 벵골 사람
- Chichewa
- 갈리시아어
- 그루지야 사람
- Guarani
- 하우사
- 힌디 어
- Høgnorsk
- 아이슬란드
- inuktitut
- 아일랜드
- Kinyarwanda
- 쿠르드족
- 링 갈라
- 무리
- 말레이 사람
- 마다가스카르 사람
- 맨 섬 사람
- 미그 마크
- Minderico
- Nishnaabe
- 오로모
- 케 체아
- 사미
- 스코틀랜드 게 일어
- Secwepemctsín
- 소말리아
- 티 그린
- 우랄 릭
- 줄루 족
- 특허
정의
멸종 위기에 처한 언어는 멸종의 위험에 처한 인간 언어입니다. 이 목록은 또한 소수 언어 - 안정이지만 소규모 인구 (예 : 몰타 또는 하와이 인)가 사용하는 언어를 포함합니다. 및 수비 또는 자원이 부족한 언어는 대규모 인구에 의해 사용될 수 있지만 디지털 방식 (예 : Quechua)이 부족합니다. 이러한 언어는 공통적으로 특정 특성을 공유합니다. 가장 적합한 것은 스펠 체커에서 문법에 이르기까지 다양한 데이터와 자원 부족입니다. 이 목록에 속하지 않는 다른 자원 부족 언어에는 구성 언어 (예 : Klingon 또는 Na'vi), 컴퓨터 언어 (예 : JavaScript 또는 LUA) 및 대부분의 목적을 위해 계산적으로 관련이없는 멸종 된 멸종 언어 (예 : Tocharian)가 포함됩니다.
오픈 소스는 "제품의 디자인 또는 청사진에 대한 무료 라이센스를 통해 보편적 인 액세스를 촉진하고, 누구의 후속 개선을 포함하여 해당 디자인 또는 청사진의 보편적 인 재분배를 촉진합니다." (위키). 오픈 소스가 아닌 언어 나 프로젝트에 할당 된 돈과 자원은 다른 곳에서 가능한 확장 성을 희생시키면서 사용되기 때문에 중요합니다.
이 목록은 endangered-languages 처한 이름으로 지명되었습니다. 멸종 위기가 소수 언어를 사용하는 언어 커뮤니티의 견해를 반영하지 않는로드 된 용어라는 것을 반영하도록 이름이 바뀌 었습니다. low-resource-languages 다른 자원이 많은 언어에 비해 디지털 리소스 부족 에이 목록을 중점을 둡니다.
이러한 언어를 위해 구축 된 도구는 포함되지 않습니다 (방언이나 변형과 관련이없는 한) : 아랍어, 불가리아, 카탈로니아, 중국, 크로아티아, 체코, 덴마크어, 네덜란드어, 영어, 에스토니아, 핀란드, 플랑드르, 프랑스어, 독일어, 히브리어, 헝가리어, 인도네시아, 이탈리아, 일본, 한국어, 라트비안, 노르웨이어 (Norwegian) 페르시아어, 폴란드어, 포르투갈어, 루마니아, 러시아어, 세르비아 인, 슬로바키아, 슬로베니아, 스페인어, 스웨덴어, 태국, 터키어, 우크라이나, 발렌시아, 베트남어. 이 목록은이 Wikipedia 페이지의 웹 사이트에 가장 인기있는 콘텐츠 언어 목록에서 나옵니다. 다른 메트릭이 사용될 수 있습니다. 다른 메트릭이 있으면 제안 해주세요!
이 목록은 특히 한 가지에 능숙합니다. 현장에 존재하는 도구의 종류를 일반적으로 보여줍니다. 그러나 특정 언어 또는 도구 제품군에 대한 심층 연구의 경우 예외적으로 성능이 좋지 않습니다. 예를 들어, 각 낮은 리소스 언어에 대한 모든 Firefox 언어 팩 또는 조리막 언어 모듈을 나열하는 것은 ACL Wiki에서 언급 된 바스크에 사용 가능한 모든 도구를 포함하여, IXA 그룹을 통해 도구를 카탈로그하는 것을 의미하며 일부는 오픈 소스이며 일부는 그렇지 않습니다. 대신이 목록을 더 많은 연구를위한 출발점으로보십시오.
코드 언어를위한 리소스를 찾고 계십니까? Awesome Lists Collection을 살펴보십시오.
일반 리포지토리
단일 언어 사전화 프로젝트 및 유틸리티
유용
- 무료 전자 사전 프로젝트는 휴대 전화를위한 Java Midlet의 프로젝트입니다.
- 단일 언어 용 디지털 사전을 주최하는 Webonary 사이트.
- Wesay- 언어 커뮤니티는 자체 사전을 구축 할 수 있습니다. https://software.sil.org/wesay/ (SIL International).
소프트웨어
- 4LANG- Eilenberg 기계를 사용하는 개념 사전.
- Accentuate.us 일명 "Charlifter". 많은 언어에 대한 일반 텍스트의 통계적 단형화
- 정렬 -OPENFST- 이것은 4 가지 작업을위한 CRF Autoencoder 프레임 워크의 구현입니다. BITEXT WORD 정렬, 부품 태그, 코드 스위칭, 종속성 구문 분석.
- Apertium apertium은 특히 관련 언어 쌍에 적합한 오픈 소스 얕은 전송 기계 번역 시스템을 구축하는 도구 상자입니다. 엔진, 유지 보수 도구 및 여러 언어 쌍에 대한 열린 언어 데이터가 포함됩니다.
- ARK-TWEET-NLP-CMU ARK Twitter 부품 연설 태그거 ( Fork ).
- ArtofReading- 독서 그림 컬렉션의 기술과 관련된 색인 및 처리 스크립트.
- Bayesline- 언어 식별을위한 다국적 베이지안 분류.
- Bible-Corpus-Tools- 다국어 성경 코퍼스를 읽고 처리하기위한 도구 모음.
- BloomdeskTop -Bloomtop은 하이브리드 C#/javaScript/html/css windows 응용 프로그램으로, 자신의 언어로 책을 원하는 언어 커뮤니티의 경우 막대를 크게 낮 춥니 다. Bloom은 모국어 스피커와 옹호자들이 함께 일하면서 커뮤니티 저자와 외부 물질에 대한 액세스… https://bloomlibrary.org/에서 함께 일하는 저 훈련의 고출력 시스템을 제공합니다.
- Bloomlibrary- Bloom Library 싱글 페이지 앱, Angularjs & bootstrap, parse.com 백엔드를 사용합니다. https://bloomlibrary.org/.
- 뇌 - 자바 스크립트의 신경망.
- Bristol Uni MT Morphology Tools-이 repo는 이전에 http://www.cs.bris.ac.uk/research/machinelearning/morphology/resources.jsp에서 사용 가능한 스크립트의 거울입니다. 포함 : Ukwabelana- 오픈 소스 형태 학적 줄루 코퍼스와 엠마 : 형태 학적 분석을위한 새로운 평가 지표.
- Brown -Cluster -C ++ Brown Word 클러스터링 알고리즘의 구현.
- CasualCon CasualConc는 Mac OS X 10.5 Leopard에서 기본적으로 실행되는 일치 프로그램입니다. [관리자]는 자신의 연구를 위해 그것을 사용하고 있었지만 (다른 사람들이있을 수 있음) 원래 캐주얼 사용 (예비 분석 또는 비 회복 목적)을 위해 설계되었습니다. KWIC 일치 라인, 워드 클러스터, 배치 분석 및 단어 수를 생성 할 수 있습니다.
- 통계 기계 번역 및 (대부분) 컨텍스트가없는 형식에 기반한 통계 기계 번역 및 기타 구조화 된 예측 모델을위한 CDEC- 디코더, ALIGNER 및 모델 최적화.
- Charlint Charlint는 Perl에 작성된 캐릭터 정규화/점검 도구입니다. 그 중에서도 W3C 문자 모델에서 조기 균일 정상화를위한 테스트 플랫폼으로서 유니 코드 TR 15의 정규화 형태 C를 구현합니다.
- 코러스 - 지리적으로 배포 된 일반적인 언어 개발 팀에 적합한 워크 플로를 가능하게하도록 설계된 버전 제어 시스템.
- CLAP-Computational Linguistics Application Mediator- 웹 응용 프로그램 프론트 엔드를 사용하여 NLP 응용 프로그램을 편안한 웹 서비스로 빠르게 전환합니다. 귀하는 명령 줄 애플리케이션, 입력, 출력 및 매개 변수 및 조개가 응용 프로그램 주위를 랩핑하여 완전한 편안한 편안한 웹 서비스를 제공합니다.
- CMU Sphinx Cmusphinx는 BSD 스타일 라이센스에 따라 발표 된 스피커 독립적 인 대규모 어휘 연속 음성 인식기입니다. 또한 연구원과 개발자가 음성 인식 시스템을 구축 할 수있는 오픈 소스 도구 및 리소스 모음입니다.
- CNMINLANGWEBCOLLECT- 중국 소수 민족 웹 사이트 언어 탐지 및 웹 사이트 수집.
- COG -COG는 Lexicostatistics 및 비교 언어학 기술을 사용하여 언어를 비교하는 도구입니다. 다른 언어 품종에서 단어 목록을 비교하는 많은 프로세스를 자동화하는 데 사용될 수 있습니다. http://sillsdev.github.io/cog/.
- convertextract- 원본 파일의 형식을 유지하면서 비공개 텍스트 (예 : SIL Fonts 필요한 텍스트)를 사용하여 Excel, Word 및 PowerPoint 파일을 유니 코드로 변환합니다.
- Corpustools -Phonological Corpustools http://phonologicalcorpustools.github.io/corpustools/.
- CTK- LDC의 Champollion Sentence Aligner 커널을 중심으로 제작 된 Champollion Tool Kit (CTK)는 가능한 많은 언어 쌍에 대한 즉시 사용 가능한 병렬 문장 정렬 도구를 제공하는 것을 목표로합니다. (원래 프로젝트는 Sourceforge : http://champollion.sourceforge.net에 있습니다).
- 데이터 태그 - 데이터 세트의 민감도 및 개인 정보 보호 위험을 평가하는 시스템과 데이터 세트를 전송, 저장 및 액세스하는 방법을 설명하기위한 태그를 할당합니다. ( 포크 ).
- Dataverse- 연구 데이터를 공유하고 게시하기위한 데이터 리포지토리 프레임 워크.
- Dative -dative : 언어 현장 작업을위한 소프트웨어 http://www.dative.ca.
- Dative- 여러 언어 현장 작업 웹 서비스 데이터베이스와 상호 작용하는 단일 페이지 응용 프로그램. 웹 사이트.
- Deeplearntoolbox- 딥 러닝을위한 Matlab/Octave Toolbox. 깊은 신념 그물, 스택 된 자동 인코딩, 컨볼 루션 신경망, 컨볼 루션 autoencoders 및 바닐라 신경망이 포함되어 있습니다. 각 방법에는 시작할 수있는 예제가 있습니다.
- Desmeme- 언어 템플릿 탐색을위한 데이터베이스 및 도구.
- DICTDB- 언어 번역을위한 사전 데이터베이스.
- DiscourseGraphs- 다층 주석이 달린 언어 데이터를 변환하고 병합하는 파이썬 기반 도구.
- Divvun-GramCheck-이 프로그램은 제약 문법 형식 판독 값으로 지정된 양식에서 FST 조회를 수행하며, 사람이 읽을 수있는 메시지가 포함 된 XML 파일에서 오류 태그를 찾습니다. 문법 검사기 파이프 라인의 후기 단계로 사용됩니다.
- Divvun -Keyboard- 원주민 및 소수 언어를위한 키보드 레이아웃이있는 iOS 및 Android 용 키보드 앱
- Divvunspell -HFST
hfst-ospell (아래)은 강력한 동시성 및 메모리 관리를 위해 Rust로 다시 작성했습니다. hfst-ospell 보다 약 10 배 빠르게 사용됩니다. hfst-ospell 과 동일한 ZHFST 파일을 사용하는데,이 파일은 Giellalt Github org의 모든 언어에 사용할 수 있습니다 (아래 참조). - DLTK- 도이치 언어 도구 키트. 더.
- Epitran- 많은 저주적 언어에 대한 G2P (Grapheme to Phoneme Conversion).
- ELDER : 멸종 위기에 처한 언어 데이터 전자 저장소-멸종 위기에 처한 언어 데이터 전자 저장소 : 웹 기반 온톨로지로 준수하는 공동 언어 적 데이터 카탈로그 도구.
- Enchant -Enchant -Enchant Sportchecking Library https://abiword.github.io/enchant/.
- EXSITE9 -EXSITE9는 연구자들이 설명 메타 데이터로 데이터 파일을 쉽고 신속하게 태그로 만들고 데이터 파일과 리포지토리에 제출할 수 있도록 데이터 파일과 관련 메타 데이터를 포장하기 위해 구축 된 데스크탑 응용 프로그램입니다. Exsite9는 또한 상기 파일의 구조적 구성을 실제로 로컬 파일 스토리지에서 물리적 위치를 이동할 수있게합니다. 포장 준비가 된 파일과 메타 데이터를 올바르게 구성 할 수 있습니다.
- FAST_ALIGN- 단순하고 빠른 감독되지 않은 단어 조정기.
- FastText- 빠른 텍스트 표현 및 분류를위한 라이브러리.
- FieldWorks- FieldWorks는 복잡한 스크립트를 지원하는 언어 및 문화 데이터를위한 소프트웨어 도구입니다. https://software.sil.org/fieldworks/ Fieldworks Language Explorer (또는 Flex)는 Field Linguists가 많은 일반적인 언어 문서 및 분석 작업을 수행하도록 돕기 위해 설계되었습니다. 어휘 정보를 이끌어 내고 기록하고 사전을 만들고, 텍스트를 개선하고, 담론 특징을 분석하고, 형태를 연구하는 데 도움이 될 수 있습니다.
- 프랑 - 자연 언어 탐지 https://wooorm.com/franc/.
- FWDocumentation- FieldWorks 용 개발자 문서 (복잡한 스크립트를 지원하는 언어 및 문화 데이터를위한 소프트웨어 도구).
- fwlocalizations- 현장 작업을위한 지역화.
- FwsupportTools- 현장 워크 개발을위한 추가 도구.
- Gaia -Gaia는 Boot 2 Gecko 프로젝트를위한 HTML5 기반 전화 UI입니다. 참고 : 어떤 출시에 사용되는지에 대한 자세한 내용은 Wiki를 참조하십시오. 새로운 언어로 키보드를 설정하는 데 관심이 있으시면 이것을 참조하십시오.
- Giellakbd-Android-Latinime의 포크 (Google 용 Android 용). 모바일 운영 체제에서 일류 지위가 필요한 소외된 언어를 대상으로합니다. KBDGEN에서 사용합니다 (이 페이지의 다른 곳 참조).
- GIELLAKBD -IOS- 현지 키보드에 대한 지원에 중점을 둔 Apple의 기본 iOS 키보드의 오픈 소스 상환. KBDGEN에서 사용합니다 (이 페이지의 다른 곳 참조).
- Giza-PP-Giza ++는 IBM 모델 1-5 및 HMM 워드 정렬 모델을 훈련시키는 데 사용되는 통계 기계 번역 툴킷입니다. 이 패키지에는 일부 정렬 모델을 훈련시키는 데 필요한 단어 클래스를 생성하는 MKCLS 도구 소스가 포함되어 있습니다.
- GV -Crawl- 병렬 Corpora를 만들기위한 Global Voices Bitext Crawler.
- Glotlid- 2000 개 이상의 레이블을 지원하는 빠른 텍스트 언어 식별.
- Glottolog Data -Glottolog는 세계 언어에 대한 포괄적 인 참조 정보를 제공합니다.
- Gramadóir- 소수 언어 및 계산 자원이 제한된 기타 언어를위한 문법 검사기의 빠른 개발을 위해 설계된 문법 검사 엔진.
- GRIND -IndeSign 5.5 플러그인 설계된 흑연을 사용하여 Adobe Indesign에서 사용할 스마트 글꼴을 사용할 수 있습니다. 이 프로젝트는 Sil의 흑연 2 스마트 글꼴 기술을 단락 작곡가 플러그인을 자체 구현하는 것과 통합합니다.
- Hermitcrab-Hermitcrab.net은 항목 및 프로세스 접근 방식을 취하는 유연한 형태/음운 소포입니다.
- HFST -OSTELL -HFST 맞춤법 검사기 라이브러리 및 명령 줄 도구.
- HFST-OSPELL-JS- HFST-OSPELL에 대한 노드 바인딩.
- HFST-OPTIMIZINS-LOOKUP-HFST 최적화 최적화 독립형 라이브러리 및 명령 줄 도구.
- HUNDICT- Parallel Corpora의 이중 언어 사전 추출기.
- HUNSPELL- 철자 검사기 및 형태 학적 분석기 라이브러리 및 프로그램은 풍부한 형태와 복잡한 단어 복합 또는 캐릭터 인코딩을 갖춘 언어를 위해 설계되었습니다.
- Huntag- 최대 엔트로피 학습 및 숨겨진 Markov 모델을 사용하여 NLP의 순차적 태그.
- ICU -DOTNET -C# ICU4C 용 래퍼.
- ICU4C- http://source.icu-project.org/repos/icu/icu/의 SVN 프로젝트 미러. FieldWorks Branch에는 일부 FieldWorks별로 향상이 있습니다.
- ILANGUAGE- 알려지지 않은 언어 텍스트를 줄이거하거나 한마디로 형태소에 대한 가능한 구문 분석에 대한 대략적인 추정치를 얻는 데 유용한 반 감정 언어 독립적 인 형태 분석기. 입력 : 코퍼스. 압축, 최대 엔트로피 및 현관 활용을 사용합니다.
- IPA -HELP -IPA 도움이됩니다.
- Itweets -Geodata- 토착 트윗의 Geodata.
- jQuery.ime- jQuery 기반 입력 메소드 라이브러리.
- KBDGEN- 다양한 운영 체제에 대한 키보드 및 키보드 레이아웃을 생성합니다.
- Koreksyon- 저수고 자원 언어로 맞춤법 검사 및 문법 검사 기능을 개발하고 구현하기위한 도구.
- l20n.js -L20n Reinvents 소프트웨어 현지화. 사용자는 자연 언어의 전체 표현력을 활용할 수 있어야합니다. L20N은 단순한 것들을 간단하게 유지하고 동시에 복잡한 것을 가능하게합니다. 이것은 L20N의 JavaScript 구현입니다. http://l20n.org.
- Langid.py- 독립형 언어 식별 시스템.
- Langtech Tromsø University가 SVN에서 제공 한 수많은 리소스. 자세한 내용은 여기와 영어로되어 있습니다.
- 레고 통합 개념 - 레고 통합 개념과 관련된 자료.
- LEX4ALL -RESOURCE 언어에 대한 발음 어휘 http://lex4all.github.io/lex4all/.
- LEXDB -LEXDB는 어휘 동족 추적 데이터베이스입니다. 그것은 모든 lexemes와 cognate 판단의 전체 출처를 저장하고 여러 Nexus 방언으로 수출 할 수 있습니다. 데이터베이스는 Flexible Python/Django 웹 프레임 워크로 작성되었습니다.
- LFMERGE- Languageforge.org의 보내기/수신.
- Liblevenshtein- Levenshtein Automata를 기반으로 한 유한 상태 변환기를 생성하기위한 라이브러리.
- Libpalaso -Palaso Library : 언어 소프트웨어 개발자에게 유용한 .NET 라이브러리 세트.
- Lingo 문법 행렬 Lingo 문법 매트릭스는 다양한 언어를위한 광범위한, 정밀, 구현 된 문법을 개발하기위한 프레임 워크입니다.
- LINGPY -LINGPY : 역사적 언어학의 정량적 작업을위한 파이썬 라이브러리 http://lingpy.org.
- Linguistica Linguistica는 형태 (단어 구조)에 중점을 둔 자연 언어에 대한 감독되지 않은 학습을 탐구하기 위해 설계된 프로그램입니다. Windows, Mac OS X 및 Linux에서 실행되며 QT 개발 프레임 워크 내에서 C ++로 작성됩니다. 메모리에 대한 요구는 분석 된 코퍼스의 크기에 달려 있습니다.
- Long -Press- jQuery 플러그인은 악센트 또는 희귀 한 캐릭터의 글쓰기를 용이하게합니다. http://toki-woki.net/lab/long-press/.
- 저급 자원 -Pos-Tagging-2014 저주적 POS 태깅 : 2014
- LRL- 낮은 리소스 언어에 관한 작업.
- MacVoikko- Voikko를 기반으로 한 OS X 맞춤법 서버.
- Machine -Machine은 .NET 용 자연어 처리 라이브러리로서 자원이 부족한 언어를 처리하는 도구 (Flex에서 사용)를 제공하는 데 중점을 둡니다.
- Make -Extensions- Hunspell 맞춤법 검사 확장을 생성하기위한 스크립트.
- Mgiza- 유명한 Giza ++를 기반으로 한 단어 정렬 도구는 멀티 스레딩, 이력서 훈련 및 증분 교육을 지원하기 위해 확장되었습니다.
- Minority Translate Minority Translate는 다른 언어 위키 백과의 기존 기사에 대한 포인터를 제공함으로써 소규모 크기의 위키 백과 (실제로 모든 크기)에서 콘텐츠 생성을 돕는 간단한 프로그램입니다. 따라서 사용자는 기존 텍스트를 쉽게 번역하거나 적응하여 Wikipedia Edition의 크기와 사용성을 높일 수 있습니다.
- Morfessor -Morfessor는 감독되지 않고 반 감독 된 형태 학적 분할 도구입니다.
- Morpholm- 형태 인식 언어 모델.
- Morph -Test- Giella 인프라를 사용하여 구축 된 형태 학적 변환기의 생성 및 분석을위한 테스트를 실행하는 Python 스크립트. HFST, Xerox 'FST 도구 및 FOMA와 함께 작동합니다.
- Mosesdecoder -Moses, 기계 번역 시스템.
- MOZ-L10N-TIER- L10N에 대한 문자열 우선 순위를 평가하기 위해 의사-로케일을 만듭니다.
- Mukurtucms- Mukurtu Content Management System (CMS)은 디지털 문화 자원을 보관할 수 있도록 설계된 인터넷 기반 플랫폼입니다.
- 신화 - 신화는 구조화 된 텍스트 데이터 파일과 이진 검색이있는 색인 파일을 사용하여 단어와 문구를 조회하고 말, 의미 및 동의어의 일부에 대한 정보를 반환하는 간단한 동의어 사전입니다.
- MyWorkSafe- 언어 개발 근로자를위한 스마트 및 간단한 백업. http://software.sil.org/myworksafe/.
- NABU -NABU는 오디오 및 비디오 항목 카탈로그, 이러한 항목에 대한 메타 데이터 및 항목의 워크 플로 상태에 대한 정보를 제공하는 디지털 미디어 항목 관리 시스템입니다. www.paradisec.org.au
- 자연 - 노드 용 자바 스크립트 일반 자연 언어 시설.
- NIST 2008 오픈 머신 번역 평가
- NLTK- 파이썬 자연어 도구 키트. NLTK 소스 http://www.nltk.org/.
- Panlex 용 Node -Panlex -Node.js 클라이언트.
- Norma- 자동 철자 정규화를위한 도구.
- nplm -https://nlg.isi.edu/software/nplm/의 포크 Mosesdecoder에서 사용하기위한 효율성 조정 및 적응.
- Octothorpe -Couchdb 기반 Wiki Thing.
- ODTXSLT- 패키지의 내용 (예 : ODT, DOCX 등)에서 XSLT 변환을 수행하십시오.
- OLD-WEBAPP- 온라인 언어 데이터베이스 --- 언어를 공동으로 문서화하기위한 웹 애플리케이션을 만들기위한 소프트웨어 .http : //www.onlinelinguisticdatabase.org.
- OLD -Online Linguistic Database (Old) : 언어 현장 작업을위한 소프트웨어. http://www.onlinelinguisticdatabase.org.
- Old -Pyramid- 온라인 언어 데이터베이스는 피라미드 프레임 워크로 마이그레이션되었습니다.
- OMEGAT-HFST-TOKENIGER-OMEGAT-HFST-TOKENIGER는 OMEGAT에서 FST 기반 토큰 화를 제공합니다.
- Opendatakit Open Data Kit (ODK)
- OpenNLP- Apache OpenNLP 라이브러리는 자연어 텍스트 처리를위한 기계 학습 기반 툴킷입니다. 웹 사이트.
- ops -devbox- (Linux) 개발자 시스템 용 Ansible Playbook.
- PANLEX -TOOLS-이 패키지에는 어휘 리소스를 PANLEX로 가져 오기에 적합한 형식으로 변환하는 스크립트가 포함되어 있습니다. 문서는 https://dev.panlex.org에서 찾을 수 있습니다.
- PDSC 수집-뷰어-Paradisec 컬렉션 브라우저
- 패러다임 - 패러다임은 조셉 E. Grimes의 1983 년 작품의 .NET (C#) 구현 "부착 위치 및 경합 : 패러다임 프로그램"입니다.
- 경로 - 출판을 위해 언어 데이터 준비.
- PDFDROPLET- PDF 페이지 부과를위한 라이브러리 및 GUI (예 : 2- 업) http://software.sil.org/pdfdroplet/.
- Pepper- Pepper는 언어 데이터를위한 플러그 가능한 Java 기반 오픈 소스 컨버터 프레임 워크입니다.
- 음운론 보조 - 음운 보조는 발견 도구입니다. 음성 데이터의 코퍼스를 제공하는 것은 자동으로 사운드를 차트에 차트하고 검색 기능을 통해 사용자가 언어로 사운드 규칙을 발견하고 테스트하는 데 도움이됩니다.
- Pressagio -Pressagio는 N -Gram 모델을 기반으로 텍스트를 예측하는 라이브러리입니다. 예를 들어, 문자열을 보낼 수 있으며 라이브러리는 문자열의 마지막 토큰에 대해 가장 가능성이 높은 단어 완료를 반환합니다.
- PrimerPro- PrimerPro의 목적은 문해력 노동자가 주어진 언어의 프라이머 개발을 돕는 것입니다.
- Pydelphin- Delph -In (친절한 포크) 용 Python 라이브러리.
- RBGPARSER- 그래프 기반 종속성 파서.
- Rosetta Pangloss- Rosetta 프로젝트의 Pangloss 시스템.
- SALM -SALM : 접미사 어레이 및 기쁨으로 경험적 언어 처리에 응용.
- 소금 - 언어 데이터를 저장하고 조작하는 그래프 기반 모델.
- Saymore- 모든 결과 파일 및 메타 데이터를 구성하고 파일을 아카이브 형식으로 변환하고 전사와 같은 일반적인 언어 문서화 작업을 만드는 도구입니다.
- Secwepemc -Facebook- Facebook을 지원되지 않는 언어로 번역하십시오.
- SEGPARSER- 공동 세분화, POS 태깅 및 종속성 구문 분석을위한 무작위 탐욕 알고리즘.
- 묘목 - 인간 언어 프로젝트를위한 시드 코퍼스 구축 및 사용.
- 언어로 된 Skype- Skype를 지원되지 않는 언어로 번역하십시오.
- Solid -Solid는 표준 형식 (예 : Toolbox) Lexicon 데이터를 확인, 정리 및 변환하는 데 사용할 수있는 소프트웨어 도구입니다.
- 구체 전환 도구 많은 LDC Corpora에는 Nist Sphere 형식의 음성 파일이 포함되어 있습니다. 아래 프로그램은 구 파일을 다른 형식으로 변환합니다.
- Standard Formatlib- 표준 형식 라이브러리.
- Stanford Corenlp -Stanford Corenlp : 핵심 NLP 도구의 Java 제품군. https://stanfordnlp.github.io/corenlp/.
- Stanford Corenlp Python -Stanford Corenlp 도구 용 파이썬 래퍼.
- Stanza -Stanford NLP Group의 공유 Python 도구.
- STR2IPA- 가까운 음성 작문 시스템이있는 언어에 대한 발음 사전.
- Sugali- 이것은 소프트웨어 프로젝트 코스를위한 많은 (많은) 언어 프로젝트에 대한 언어 식별 프로젝트의 레거시 저장소입니다.
- SUGAR -LIIKE- 낮은 자원 언어에 대한 언어 식별 (Susanne, Guy and Liling).
- Syllabipy -Universal Syllabification 알고리즘을위한 Python 인터페이스
- Tasty-Imitation-Keyboard- 기본 Apple 키보드의 맛있는 모방 역할을하는 iOS8+ 용 사용자 정의 키보드. Swift와 최신 Apple Technologies를 사용하여 구축되었습니다!.
- Teckit- 텍스트 인코딩 변환 툴킷.
- TENY- 저수고 기계 번역을위한 도구.
- Teradict- 영어 단어를 수백 개의 언어로 번역하십시오!.
- Tesseract.js- 62 개 언어의 순수한 자바 스크립트 OCR ?? http://tesseract.projectnaptha.com/.
- Texnlp -Texnlp : Texas Natural Language Processing Tools.
- TIMBL TIMBL은 여러 메모리 기반 학습 알고리즘을 구현하는 오픈 소스 소프트웨어 패키지이며, 그 중 IB1-IG, 기호 기능 공간에 적합한 기능 가중치를 갖는 K-NAREARTE 이웃 분류의 구현 및 IB1-IG의 의사 결정 근사치 인 IGTREE. 구현 된 모든 알고리즘은 공통적으로 훈련 세트의 일부 표현을 메모리에 명시 적으로 저장한다는 것을 공통적으로 가지고 있습니다. 테스트 중에 새로운 사례는 가장 유사한 저장된 사례의 외삽으로 분류됩니다.
- Toney- 톤 분류 소프트웨어.
- Field Linguist의 Toolbox -Toolbox는 현장 언어 학자를위한 데이터 관리 및 분석 도구입니다. 어휘 데이터를 유지 관리하고 텍스트를 구문 분석하고 개선형화하는 데 특히 유용하지만 사실상 모든 종류의 데이터를 관리하는 데 사용할 수 있습니다.
- Elan 용 도구 상자 스크립트 - Alexander Koenig의 도구 상자 스크립트 https://tla.mpi.nl/tools/tla-tools/elan/thirdparty/의 미러.
- 도구 forfieldlinguistics- 언어학을위한 스크립트 및 레시피 모음.
- 전사자 - Aikuma를위한 HTML5 전사 도구
- Translitit -Engine- 자바 스크립트로 작성된 음역 엔진.
- TSAMMALEX 데이터 -TSAMMALEX는 식물과 동물에 대한 다국어 어휘 데이터베이스입니다.
- Tweet2learn- 트위터에서 모국어를보다 쉽게 사용할 수 있도록 앱입니다.
- Twitter_langid- 언어 식별을위한 계층 적 문자 단어 신경망.
- Universaldependencies DOCS -Universal Dependencies 온라인 문서 http://universaldection.org/docs/.
- Universaldections 도구 - 데이터 처리를위한 다양한 유틸리티.
- Vocbench Vocbench는 Skos-XL을 사용하여 Thesauri, Authority Lists 및 Glossaries를 관리하는 웹 기반의 다국어, 편집 및 워크 플로우 도구입니다.
- wavesurfer.js- 웹 오디오 및 캔버스에 구축 된 탐색 가능한 파형 https://wavesurfer-js.org/ (Elan 플러그인도 있습니다).
- Web-Template- 언어 활성화 노력을 돕기 위해 언어 학습 리소스를 제시하는 데 사용될 수있는 웹 기반 템플릿입니다. 말하는 사전과 문장과 문구가 포함 된 구절이 포함됩니다.
- WebCorpus-이 프로젝트는 크롤링 된 데이터에서 웹 코퍼스를 생성하기위한 스크립트 및 프로그램 모음입니다.
- Wikt2dict- 많은 언어 판을위한 Wiktionary Parser 도구.
- Wikipron -Wiktionary 항목을위한 IPA 발음을 검색합니다
- Word Generator WordGenerator는 음절 구조의 사양에서 가상 단어를 생성합니다.
- WordBoundary- 단어 경계의 탐지 및 분할 실험.
- WordByword- WordByword는 멸종 위기에 처한 언어의 기초를 지원하는 Vera Ferreira, Peter Bouda 및 Ricardo Filipe가 개발 한 무료 오픈 소스이며 사용하기 쉬운 멀티미디어 어휘 트레이너입니다.
- wsi4urlang- 자원 부족 언어 (urlang)에 대한 WSI (Word Sense Induction).
- XDXF_MAKEDICT -XDXF 사전 형식 및 "Makedict"사전 변환 소프트웨어 (공식 저장소).
키보드 레이아웃 구성 도우미
- jQuery.ime- jQuery 입력 메소드 편집기 Wikipedia에 사용되었습니다
- KBDGEN- 단일의 간단한 YAML 파일에서 Windows, MacOS, X11, iOS, Android 및 Chrome 용 키보드 및 키보드 레이아웃을 생성합니다. 또한 Windows에 알려지지 않은 언어를 등록하므로 설치 후 지정된 BCP 47 코드 (ISO 639-3에 대한 완전한 지원 포함)와 키보드, 맞춤법 검사기 및 기타 도구와 같은 설치된 언어 도구간에 정확하고 강력한 연관성이 있습니다.
- 키보드 - jQuery ~ https://mottie.github.io/keyboard/를 사용한 가상 키보드.
- 키보드 - 오픈 소스 키맨 키보드.
- 키맨 - 키맨 크로스 플랫폼 입력 방법. Keyman을 사용하면 Windows, iPhone, iPad, Android 태블릿 및 전화 및 웹 브라우저에서 즉시 1,000 개가 넘는 언어를 입력 할 수 있습니다. 웹 사이트.
- Keyboardlayouteditor- 키보드 레이아웃 편집기 https://code.google.com/archive/p/keyboardlayouteditor/.
- 키보드 레이아웃 편집기-키보드 레이아웃 편집기 http://www.keyboard-layout-editor.com
- Lipika-Ime- 모든 Indic Languages를 지원하는 Mac OS X 용 IME (Input Method Engine).
- XkeyboardConfig- X Window 용 비 ACH 키보드 구성 데이터베이스. 목표는 X 윈도우 시스템 구현 (무료, 오픈 소스 및 상업)을위한 일관되고 구조화 된 잘 구조적이며 자주 출시 된 X 키보드 구성 데이터를 제공하는 것입니다. 이 프로젝트는 XKB 기반 시스템을 목표로합니다.
주석
- AGTK -AGTK는 언어 신호에 주석을 달기위한 도구를 구축하기위한 소프트웨어 구성 요소, 모든 종류의 언어 행동 (예 : 오디오, 비디오)을 문서화하는 시계열 데이터입니다. 내부 데이터 구조는 주석 그래프를 기반으로합니다. (원래 프로젝트는 Sourceforge : https://sourceforge.net/projects/agtk/에 있습니다).
- Brendano- 쉬운 구문 주석을위한 그래프 조각 언어 https://www.cs.cmu.edu/~ak/fudg/.
- Elan Elan은 비디오 및 오디오 리소스에 대한 복잡한 주석을 만드는 전문 도구입니다.
- EOPAS- Ethnoer 온라인 프레젠테이션 및 주석 시스템.
- Flat -Folia Linguistic Annotation Tool -Flat는 Folia 형식 (http://proycon.github.io/folia/)을 기반으로 한 웹 기반 언어 주석 환경입니다. Flat는 사용자가 주석이 달린 Folia 문서를보고 새로운 주석으로 이러한 문서를 풍부하게 할 수 있습니다. 다양한 언어 주석 유형이 Folia 패러다임을 통해 지원됩니다. 문서 구조를 완전히 보존하고 시각화하는 문서 중심 도구입니다.
- gfl_syntax- 쉬운 구문 주석을위한 그래프 조각 언어 https://www.cs.cmu.edu/~ark/fudg/.
- Graf-Python-Library Graf-Python은 ISO 24612에 설명 된대로 GRAF/XML 파일을 구문 분석하고 작성하기위한 오픈 소스 파이썬 구분입니다. 라이브러리의 구문 분석기는 파일에서 주석 그래프를 만듭니다. 그런 다음 사용자는 Graf-Python의 API를 통해 주석 그래프를 쿼리 할 수 있습니다.
- Kwaras- Elan Corpus Management를위한 도구.
- LDC Word Aligner LDC Word Aligner는 아랍어-영어 및 중국어 영어 단어 정렬 작업을 지원하기 위해 개발 된 단어 정렬 수동 주석에 사용되는 소프트웨어 도구입니다. 깨끗하고 사용하기 쉬운 인터페이스가 있습니다. LDC는 2009 년에 개발 된 이래로 LDC Word Aligner를 사용하여 방송, 뉴스 와이어 및 웹 기반 소스를 포함한 다양한 장르에서 1,000,000 개 이상의 주석이 달린 단어 정렬 데이터를 생성했습니다. 웹 사이트.
- POIO -ANALYZER -POIO는 언어 문서, 설명 언어학 및/또는 언어 유형학에서 일하는 언어 학자를위한 소프트웨어 도구 모음입니다. 이를 통해 언어 학자는 데이터를 관리하고 분석 할 수 있습니다. POIO 간 편집자는 전사에 형태 합성 주석을 추가 할 수 있습니다. It supports various file formats for input, but will only output standardized XML defined by the Corpus Encoding Standard and the Text Encoding Initiative. Several tools for analyzing linguistic data will be made available to further process annotated data. Poio tools are written in Python and are based on PyQt.
- poio-api - Poio API is a free and open source Python library to access and search data from language documentation in your linguistic analysis workflow. It converts file formats like Elan's EAF, Toolbox files, Typecraft XML and others into annotation graphs as defined in ISO 24612. Those graphs, for which we use an implementation called “Graph Annotation F…
- pyannotation - PyAnnotation is a Python Library to access and manipulate linguistically annotated corpus files.
- XTrans Trans is a next generation multi-platform, multilingual, multi-channel transcription tool that supports manual transcription and annotation of audio recordings. The XTrans toolkit provides new and efficient solutions to common transcription challenges and addresses critical gaps in existing tools.Designed with input from experienced human transcribers working with real world data, XTrans provides a flexible and intuitive graphical user interface for a multitude of speech annotation tasks including (virtual) segmentation of audio into smaller units like turns and sentences; speaker identification; orthographic transcription in any language; and labeling of structural elements of the transcript like topics.
Format Specifications
- spec - The official specification for the DLx linguistic data format. https://digitallinguistics.github.io/spec/.
- FoLiA FoLiA: Format for Linguistic Annotation - FoLiA is a rich XML-based annotation format for the representation of language resources (including corpora) with linguistic annotations. A wide variety of linguistic annotations are support, making FoLiA a useful format for NLP tasks and data interchange. http://proycon.github.io/folia/
- xdxf_makedict - XDXF dictionary format and "makedict" dictionary converting software (official repository).
i18n-related Repositories
- Express-Lingua - An i18n middleware for the Express.js framework.
- Polyglot.js Give your JavaScript the ability to speak many languages.
- Transifex - System for providing a nice, userfriendly/project oriented approach to translating
.po files. Great for non-technical users, free for open-source projects, decent for minority languages; however , it can take a while to get a new language added to the Transifex system because the ticketing system Transifex uses results in them losing tickets sometimes. Provides translation memory, ability to appoint reviewers, etc. Transifex used to have an open source system that you could host on your own, but that seems to have disappeared.
Audio automation
- arctic-prompts - Generate prompts PDF for CMU ARCTIC dataset.
- AudioWebService - a simple nodejs server which accepts upload of audio and runs it through praat.
- AuToBI - Automatic prosodic annotation tool written in Java.
- BashScriptsForPhonetics - ( Fork of a dormant project).
- esv-text-audio-aligner - ESV Text/Audio Aligner to programmatically obtain the timings for each word in the corresponding audio.
- html5-audio-read-along - HTML5 Audio Read-Along.
- ipa-chart - International Phonetic Alphabet (IPA) Unicode Chart and Character Picker.
- kaldi-svn-archive - An read-only archive of the original Kaldi SVN repository (mainly to keep sandboxes available).
- lex4all - pronunciation LEXicons for Any Low-resource Language ( Fork of a student project).
- Montreal-Forced-Aligner - Python interface for forced text/speech alignment.
- node-pocketsphinx
- opensauce - GNU Octave-compatible version of VoiceSauce.
- pocketsphinx - PocketSphinx is a lightweight speech recognition engine, specifically tuned for handheld and mobile devices, though it works equally well on the desktop.
- pocketsphinx-ios-demo - Simple demo for iOS.
- pocketsphinx-python - Python module installed with setup.py.
- pocketsphinx-ruby - Ruby speech recognition with Pocketsphinx.
- pocketsphinx-wp-demo - Demo to run pocketsphinx on WP8 platform.
- pocketsphinx.js - Speech recognition in JavaScript.
- praat-py - From my PhD days: Praat-Py is a custom build of Praat, the computer program used by linguists for doing phonetic analysis on sound files, to allow for scripts to be written in the Python programming language, rather than in Praat's built-in language. ( Fork of a dormant project).
- Praat-Scripts - Mietta's Scripts.
- PraatTextGridJS - A small library which can parse TextGrid into json and json into TextGrid.
- PraatontheWeb - Web implementation of Praat. Source code, running demo scripts on web, samples and documentation.
- prosodicParsing - different kinds of HMMs to use for incorporating prosody into basic parsing.
- Prosodylab-Aligner - Python interface for forced audio alignment using HTK and SoX.
- prosodylab.alignertools
- Recordmp3js - Record MP3 files directly from the browser using JS and HTML.
- sphinx4 - Pure Java speech recognition library.
- sphinxbase
- sphinxtrain
- TLSphinx - Swift wrapper around Pocketsphinx.
Text-to-Speech (TTS)
- espeak - eSpeak is a compact open source software speech synthesizer for English and other languages, for Linux and Windows. http://espeak.sourceforge.net.
- MARY TTS - MARY TTS -- an open-source, multilingual text-to-speech synthesis system written in pure java http://mary.dfki.de.
- Ossian - Ossian is a collection of Python code for building text-to-speech (TTS) systems, with an emphasis on easing research into building TTS systems with minimal expert supervision.
Automatic Speech Recognition (ASR)
- Elpis - Elpis is software for creating speech recognition models and applying them to the transcription of audio. As of 2022, it gives access to Kaldi and Huggingface Transformers.
- kaldi - This is now the official location of the Kaldi project.
- Persephone - Persephone aims to make state-of-the-art phonemic transcription accessible to people involved in language documentation, who have a training corpus of about one to four hours of transcribed speech. As of 2022, Persephone is superseded by Elpis.
Text automation
- clld - Cross Linguistic Linked Data python library.
- LaTeX2HTML5 - LaTeX web components.
- MultilingualCorporaExtractor - Node io Spider for extracting multilingual corpora ( Fork of a student project).
- SeedLing - Building and Using A Seed Corpus for the Human Language Project ( Fork of a student project).
Experimentation
- experigen - A framework for creating linguistic experiments.
- GamifyPsycholinguisticsExperiments - A simple node server to gamify linguistics experiments, runs offline on a laptop for small scale experiements and online on a server for large scale experiments. Data is sent to a Google spreadsheet. ( Fork of a dormant project).
- OpenSesame - Graphical experiment builder for the social sciences.
- OPrime - Open Source Experimentation Libraries - Online and Offline for Android and HTML5.
- psychopyMegProsody - Runs MegProsody using PsychoPy.
- PsychScript - A HTML5/Javascript library for running behavioural experiments online.
Flashcards
- Anki - Anki is a program to make and share flaschard decks (including audio) for any language or writing system. https://apps.ankiweb.net/.
- awesome-anki - A curated list of awesome Anki add-ons, decks and resources.
- VocabLift - Language-learning tool that uses vocabulary from LIFT-format dictionaries produced by programs such as Fieldworks Language Explorer and WeSay.
Natural language generation
- OpenCCG - OpenCCG library for parsing and realization with CCG. Includes mini-grammars for Inuit, Nezperce, Basque and others.
Computing systems
- Common Language Resources and Technology Infrastructure Norway / Clarino - One of their projects (not clearly listed here) is about providing an online system for language analysis, so users can connect resources visually, dump in text, and get a result. Kind of like the Yahoo! Pipes but for language processing. Uses the ABEL cluster.
Android Applications
- Aikuma - Android software for recording and translation.
- Android Speech Recognition Trainer - Speech recognition training app for low resource languages which interfaces with FieldDB corpora.
- android-template - This is a template of an Android word-learning app that may be used a way to introduce a language. It includes a quiz. For the documentation, go to http://eddersko.github.io/android-template/.
- AndroidFieldDB - An Android app which lets the user build a custom visual and auditory vocabulary, useful for guided anomia treatment and self designed language lessons by heritage speakers.
- AndroidFieldDBElicitationRecorder - A general purpose video recording tool.
- AndroidLanguageLessons - Lets heritage speakers create self designed language lessons.
- AndroidProductionExperiment - Android App to run perception experiments.
- Bevara - Android Phone Application designed for Linguistic Fieldwork to help preserve, maintain, and save endangered languages.
- ojoVoz - A mobile app for sending georeferenced image and voice recordings from an Adroid phone to an email address. For more information, please go to http://sautiyawakulima.net/ojovoz/.
- pocketsphinx-android - pocketsphinx build for Android.
- pocketsphinx-android-demo
Chrome Extensions
- babelfrog - Chrome extension to help learn languages as you browse.
- DictionaryChromeExtension - Dictionary for websites in low-resource languages. App and codebase which connects to a Wiktionary to provide definitions of any term on any website (current languages Cherokee 194,426 entries, Inuktitut 251 entries, Kartuli 7,363 entries, Plains Cree (incubation) 0 entries) use.
FieldDB
FieldDB is actively worked on by the FieldDB (Formally known as OpenSourceFieldlinguistics) group. These repos explicitly work with it but could be repurposed for other projects.
- FieldDB - An offline/online field database which adapts to its user's terminology and I-Language, has plugins for various data automation routines along the process of primary data collection to cleaning to publication and archival. 사용.
FieldDB Webservices/Components/Plugins
- AndroidLanguageLearningClientForFieldDB-sikuli - Sikuli tests for AndroidLanguageLearningClientForFieldDB.
- AuthenticationWebService - A node.js web service which mananges users and corpora creation and authentication.
- bower-fielddb-angular - A bower repository which hosts fielddb-angular components, bower install fielddb-angular --save.
- bower-fielddb - A bower repository which hosts fielddb core components, bower install fielddb --save.
- fielddb-spreadsheet-sikuli - sikuli tests for the spreadsheet module use.
- FieldDBActivityFeed - A fielddb activity feed widget which can be embedded in other codebases, websites etc use.
- FieldDBGlosser - A semi-unsupervised language independent morphological analyzer useful for stemming unknown language text, or getting a rough estimate of possible parses for morphemes in a word. bower install fielddb-glosser --save.
- FieldDBLexicon - A lexicon browser/editor web widget for FieldDB databases.
- LanguageClassDashboard - App which provides a view of FieldDB corpora for language teachers use.
- LexiconWebService - A node.js ElasticSearch wrapper for indexing/training lexicons from corpora.
- LexiconWebServiceSample - A node.js web server which implements the fieldlinguist's lexicon API for the FieldDB project.
Academic Research Paper-Specific Repositories
- Gargantua - Fast Unsupervised Sentence Aligner described in "Improved unsupervised sentence alignment for symmetrical and asymmetrical parallel corpora", COLING 2010.
- ldc-kiy - Materials for: The experimental state of mind in elicitation: illustrations from tonal fieldwork. Dubmitted to Language Documentation & Conservation, How to study a tone language .
- Learning to map into a Univerisal POS tagset Yuan Zhang, Roi Reichart, Regina Barzilay and Amir Globerson
- low-resource-pos-tagging-2014 and low-resource-pos-tagging-2014 Published in: Learning a Part-of-Speech Tagger from Two Hours of Annotation. Dan Garrette and Jason Baldridge . In Proceedings of NAACL 2013. And in: Real-World Semi-Supervised Learning of POS-Taggers for Low-Resource Languages. Dan Garrette, Jason Mielens, and Jason Baldridge . In Proceedings of ACL 2013.
- orthotree - Linguistic family tree based on orthographic distance.
- type-supervised-tagging-2012emnlp This repository contains the code, scripts, and instructions needed to reproduce the results in the paper: Type-Supervised Hidden Markov Models for Part-of-Speech Tagging with Incomplete Tag Dictionaries. Dan Garrette and Jason Baldridge . In Proceedings of EMNLP 2012. This code is frozen as of the version used to obtain the results in the paper. It will not be maintained. To see the updated code, visit nlp
- visualizing-language - For visualizations of WALS and other typological databases.
- WALS-APiCS - Code for working with WALS-APiCS (Atlas of Pidgin and Creole Language Structures) complexity metrics.
Example Repositories
These are repositories that are generally only interesting for training purposes or seeing how something is done.
- CorpusWebService - über-simple node.js-Proxy to enable CORS request for couchdb.
- CorporaForFieldLinguistics - Small corpora from diverse language typologies, useful for testing scripts.
- startR
- lucenerevolution-2013 - Demo examples for linguistics in Lucene and Solr.
- berlin-buzzwords-2013 - Demo examples for Lucene, Solr, ElasticSearch and OpenNLP from Berlin Buzzwords 2013 talk.
글꼴
- fontinline - Make inline stroke paths from an outline font.
- Noto Fonts - Noto is Google's free font family that aims to support all the world's scripts. Its design goal is to achieve visual harmonization across languages. Noto fonts are under Apache License 2.0.
- Unicodify Unicodify is a suite of programs for converting text in a variety of 8-bit encodings to Unicode (using the UTF-16 encoding). Unicodify was particularly designed to handle HTML-based text using non-ISCII 8-bit fonts to render South Asian scripts. However, elements of the suite can map other types of non-ASCII 8-bit encodings, such as Latin-2, ISCII and PASCII.
Corpora
These corpora are useful for working with tools on endangered languages. Monolingual corpora that are more for archival efforts should most likely not be included here.
- bible-corpus - A multilingual parallel corpus created from translations of the Bible.
- poio-corpus - The Poio Corpus is a freely available collection of language resources for the lesser-used languages. The data is extracted from free sources like Wikipedia, dictionaries, documents, websites and others.
조직
On GitHub
- batumi - Speech recognition and natural language processing for low-resource languages
- BloomBooks
- unicode-cldr - Unicode Common Locale Data Repository (CLDR) Project http://cldr.unicode.org
- cmusphinx - Mirror of the SourceForge repositories
- dativebase - Tools for working with OLD.
- divvun - The Divvun group at UiT develops proofing tools, keyboard apps and other language technology solutions for indigenous and minority languages, especially the Sámi languages. 웹 사이트.
- FieldDB
- GiellaLT - home for keyboard layouts, lexicons and morphologies for indigenous and minority languages, especially for morphologically complex languages, using mainly rule-based techonlogies. The resources are used by Divvun (above) and Giellatekno (below) to build a number of tools for the language communities. Almost everything is open source.
- HFST - Helsinki Finite-State Technology. 웹 사이트.
- hunspell
- keymanapp - Website.
- langtech - Language Technology Group, University of Melbourne
- lex4all
- longnow
- MontrealCorpusTools
- moses-smt - Statistical Machine Translation.
- mukurtucms
- NLTK - Natural Language Toolkit.
- PhonologicalCorpusTools)
- Projet de recherche sur l'écriture - Crowdsourcing or conducting large scale psycholinguistics experiments (or statistically significant field linguistics).
- prosodylab - Prosodylab at McGill University, Canada
- SIL International (Dev) SIL International- Another SIL organization, with many repositories.
- SIL International - SIL (originally known as the Summer Institute of Linguistics, Inc.) is probably the leading organization which provides software and tools tailored for use by field linguists and lexicographers working on endangered languages. A little known fact is that much of it's code is open sourced on GitHub and SIL is happy to recieve open source contributions and collaborate on open source projects.
- SIL NRSI - SIL Non-Roman Script Initiative. The NRSI is a department of SIL International, whose task is to provide assistance, research and development for SIL International and its partners to support the use of non-Roman and complex scripts in language development.
- StanfordNLP https://nlp.stanford.edu
- ucsd-field-lab - University of California, San Diego
- UniversalDependencies - Universal Dependencies (UD) is a project that is developing cross-linguistically consistent treebank annotation for many languages, with the goal of facilitating multilingual parser development, cross-lingual learning, and parsing research from a language typology perspective. The annotation scheme is based on an evolution of (universal) Stanford dependencies (de Marneffe et al., 2006, 2008, 2014), Google universal part-of-speech tags (Petrov et al., 2012), and the Interset interlingua for morphosyntactic tagsets (Zeman, 2008). The general philosophy is to provide a universal inventory of categories and guidelines to facilitate consistent annotation of similar constructions across languages, while allowing language-specific extensions when necessary.
- utcompling - The University of Texas at Austin's Computational Linguistics Lab. 웹 사이트.
Other OSS Organizations
- Giellatekno - Giellatekno combines cutting-edge linguistic and computational research into the analysis of Saami and other morphologically-rich languages, with the development of practical applications. We focus on deep linguistic modeling and on highly efficient and robust computational analysis with a wide empirical coverage. They use svn for their code: all of it can be found here, sorted by language.
- LOWLANDS - LOWLANDS – Parsing low-resource languages and domains https://ccc.ku.dk/research/lowlands/
- LTRC: Language Technologies Research Center IIIT Hyderabad LTRC addresses the complex problem of understanding and processing natural languages in both speech and text mode. LTRC conducts research on both basic and applied aspects of language technology. It is the largest academic centre of speech and language technology in South Asia. LTRC carries out its work through four labs, which work in synergy with each other, as listed above.
- The Language Archive Part of the MPI
튜토리얼
- How to Write a Spelling Corrector by Peter Norvig.
Language Specific Projects
For each language, we include the ISO 639-3 code, and the main autonym for that language.
아프리카 어
afr :: Afrikaans
- Afrikaanse rekenaarlinguïstiek (Afrikaans computational linguistics) — wordlists, corpora, morphological analyser, tagger, word decompounder. Available upon email.
알바니아
sqi :: shqip
- Apertium rules for Albanian - Machine Translation rules
- out-of-copyright-albanian-authors - authors scraped from the albanian language wikipedia who are out of copyright.
- Plis keyboard - The Plis keyboard is a keyboard or computer keyboard layout for the Albanian language.
- spell checking - Here you find a collection of Albanian words and information about them. Aspell, Ispell, and MySpell are included.
Alutiiq
ems :: sugpiaq
- wiinaq - Word Wiinaq is a Kodiak Alutiiq dictionary web application with automatically generated ending tables and souped-up search capabilities. It is written in Python using Django.
암하라
amh :: አማርኛ
- HornMorpho - Morphological analysis and generation of Amharic and Oromo verbs and nouns and Tigrinya verbs
바스크 사람
eus :: euskara
- Matxin - An open-source transfer machine translation engine. Linguistic information for the translation from Spanish and Basque (es-eu) is included.
벵골 사람
ben :: বাংলা
- Bangla-অঙ্কুর for Mac This project aims to develop a phonetic based Bangla typing system for Macintosh computer which can be developed into a transliteration technique in the future.
- Bengali Writer - `Bengali Writer' is a set of utilities for computerized editing and typesetting in Bengali, a language of India and Bangladesh. It comprises a set of fonts for Bengali in several formats (METAFONT, BDF, PS), a text editor with spell-cheking, export, and more. (Original project is on SourceForge: https://sourceforge.net/projects/bengaliwriter/).
- Ekushey Bangla Computing and Localization Project for the Bangla speaking people.
- Lekho - A collection of tools and resources for using bangla on computers (Original project is on SourceForge: https://sourceforge.net/projects/lekho/).
Chichewa
nya :: chicheŵa
- Chichewa - NLP resources for Chichewa.
갈리시아어
glg :: galego
- an-metri-gal - Análise métrico de texto en verso en lingua galega (Galician language) gl-ES
- android_gl_dict - Android Galician (gl_ES) Keyboard Dictionary
- aspell-gl - Galician dictionary for aspell
- CitiusSentiment - Sentiment analysis (opinion mining) for Portuguese, English, Spanish, and Galician
- CitiusTagger - A PoS-Tagger and Named Entity Classification tool for Portuguese, English, Galician, and Spanish
- Conshuga - Galician verb conjugator
- corpora - This is a collection of corpus of Galician (or related to Galicia) words / Colección de corpus de palabras en galego (ou relacionadas con Galicia)
- DepPattern - Dependency Syntactic Parsing for Portuguese, Spanish, English, and Galician, including MetaRomance parser
- DOGA_scraper - Galician Official journal scraper
- elFinder-language - Galician - Gallego / language for elFinder
- EuroWordNetLemon - EuroWordNet lemon lexicons generated from the LMF versions of the Multilingual Central Repository (MCR) EuroWordNet lexicons. It includes lexicons for Spanish, Catalan, Basque & Galician.
- GalegoDroid - Galician Translator for Android
- galeXtra - Multiword Extractor for Portuguese, English, Spanish, Galician, French
- Galician-Dependency-Treebank - This Galician Dependency Treebank has been developed by transliterating and adapting lexically the Portuguese part (Bosque 7.3 by the Floresta sintá(c)tica project) of the CONLL-X 2006.
- Galician-Fuzzy-Text-watch - Based on Fuzzy Text International by Jesse Hallett, uses the galician language to display time.
- galician-locale-for-mac - Galician locale for Mac OS X
- gl-syllabler - Split galician language words into syllables
- gl- Galician OmegaT Localisation
- hunspell-gl-ciencias - Project oriented into developing a science and maths Galician language Hunspell dictionary
- hunspell-gl - Galician hunspell dictionaries
- hyphen-gl - Galician hyphenation rules
- javagalician-java6 - The Java Galician Locale is an implementation of Java localization SPIs which will allow the Java VM to use the Galician Language (locales "gl" and "gl_ES"), one of the official languages of Spain, which is not included in Sun's JVM distribution.
- Linguakit - Multilingual toolkit for NLP: dependency parser, PoS tagger, NERC, multiword extractor, sentiment analysis, etc.
- ParlamentoGalicia - Project based on the information extracted from the transcriptions of the sessions held in the Galician Parlament
- poss-gl - Galician translation of Producing Open Source Software, by Karl Fogel
- rima - Find rhyming words in galician language.
- stopwords-gl - Galician stopwords collection
- texlive-babel-galician - TeXLive babel-galician package
- UD_Galician-CTG - The Galician UD treebank is based on the automatic parsing of the Galician Technical Corpus created at the University of Vigo by the the TALG NLP research group.
- UD_Galician-TreeGal - The Galician-TreeGal is a treebank for Galician developed at LyS Group (Universidade da Coruña).
- UL_Galician-TreeGal - CoNLL-UL Repository for UD_Galician-TreeGal
Apertium
- apertium-cat-glg - Apertium translation pair for Catalan and Galician
- apertium-dict-en-gl - English-Galician language pair for Apertium
- apertium-dict-es-gl - Spanish-Galician language pair for Apertium
- apertium-dict-pt-gl - Portuguese-Galician language pair for Apertium
- apertium-en-gl - Apertium translation pair for English and Galician
- apertium-es-gl - Apertium translation pair for Spanish and Galician
- apertium-glg - Apertium linguistic data for Galician
- Apertium-pt-gl.pt-gl-LMF - This is the LMF version of the Apertium bilingual ditionary for Portugues and Galician languages
- apertium-pt-gl - Apertium translation pair for Portuguese and Galician
그루지야 사람
kat :: ქართული
- awesome-georgia - A curated list of awesome libraries and packages specific/related to Georgia (country).
- Gadatsqvetilebebi - გადაწყვეტილებები; Web spider and corpora importer for public legal decisions.
- GeoWordsDatabase - Around 310 000 unique Georgian words https://bumbeishvili.github.io/GeoWordsDatabase/.
- Kartuli Speech Recognition - ანდროიდის ქართველი მომხმარებლებისთვის სიტყვის ამოცნობის სისტემის შექმნა. Codebase to turn any webpage from any alphabet into another alphabet, the default is to turn latin letters into Kartuli. use "Do your friends keep commenting on Facebook with English keyboards (either because they forgot to switch, or because they didn't/can't install a Georgian keyboard)? Now you can read the web through კართული eyes.".
- KartuliChromeExtension - Chrome აპლიკაცია, რომელიც ყველა ინგლისურ ასო-ბგერას აჩვენებს ქართულ ასო-ბგერად.
- QartuliDaBunebismetkveleba - მათემატიკისა და ბუნებისმეტყველების ინტერაქტიული სახელმძღვანელო მე-2 - მე-3 კლასის მოსწავლეებისათვის.
- SakartvelosUzenaesiSasamartloSarke - საქართველოს უზენაესი სასამართლო სარკე.
- SamartlosSakonstitutsioSasamartdoSarke - სამართლოს საკონსტიტუციო სასამართდო სარკე.
- translitit-latin-to-mkhedruli-georgian - A Latin to ქართული (Mkhedruli Georgian) transliteration function written in JavaScript.
- translitit-mkhedruli-georgian-to-ipa - A Latin to ქართული (Mkhedruli Georgian) transliteration function written in JavaScript.
- Declensions - Methods to generate declensions for Georgian language
글꼴
- Stichoza/font-larisome - Iconic font for Georgian currency inspired by Font-Awesome (CSS).
- Lotuashvili/BPGNateli - Bower package for BPG Nateli font (CSS).
- thecotne/georgian-webfonts - Package for georgian fonts (CSS).
Internationalization and Localization (i18n/l10n)
- Stichoza/money-num-to-string - Convert a number/money to localized string (PHP, JavaScript).
- natchkebiailia/NumberToWord - Convert numbers to localized strings (JavaScript).
- d0ragon/number-to-words-ka - Convert numbers to localized strings (PHP).
- dimakura/ka - Common functionality for georgian projects (Ruby).
- dimakura/ka.js - Georgian language support for node and browser (JavaScript).
- akalongman/kautilities - Convert Georgian letters to Latin and vice-versa (PHP).
- Landish/Laravel-Ka - Laravel Georgian Language Pack.
- Landish/RedactorJS-GE - Redactor WYSIWYG HTML Editor Georgian Language Pack (JavaScript).
- wenzhixin/bootstrap-table - Bootstrap table with extra features. l10n by @Lotuashvili and @Stichoza.
- moment/moment - A lightweight date library (JavaScript).
- ioseb/geokbd - Georgian keyboard library (JavaScript).
Guarani
grn :: Guarani
- ParaMorfo - morphological analysis and generation of Spanish and Guarani verbs, nouns, and adjectives.
하우사
hau :: هَرْشَن هَوْسَ
- Hausa - Repository for Hausa NLP tools.
힌디 어
hin :: हिन्दी
- hindi-morph - An open source morphological analyzer for Hindi.
Høgnorsk
nno :: Høgnorsk
- hunspell-hn_NO - A beginning to a spellchecking tool for Høgnorsk, a conservative variant of Norwegian Nynorsk, based on a set of corpuses.
아이슬란드
isl :: íslenska
- IceNLP - IceNLP is an open source Natural Language Processing (NLP) toolkit for analyzing and processing Icelandic text. The toolkit is implemented in Java.
Inuktitut
iku :: Inuktitut
- InuktitutAlignerData - Scripts for alignment of laboratory speech production data.
- InuktitutComputing - Inuktitut Morphological Analyser, transcoder, transliterator, corpus tools, and lexical lists for working with Inuktitut. Usable online at http://inuktitutcomputing.ca/index.php.
아일랜드
gle :: Gaeilge
- aimsigh - Source for the now-defunct aimsigh.com Irish search engine.
- caighdean - Code for standardizing Irish language text.
- fleiscin - Irish hyphenation patterns for TeX https://cadhan.com/fleiscin/.
- GaelSpell - Sources for an Irish language spell checker.
- tesseract-gle-uncial - OCR for old Irish fonts.
Kinyarwanda
kin :: Ikinyarwanda
- kin-morph-fst - Kinyarwanda morphological analyzer.
- TurboTagger & TurboParser for Kinyarwanda (download) TurboTagger & TurboParser for Kinyarwanda
쿠르드족
kur :: Kurdî
- Kurlex - Morphological analyser and lexicon, written in the Alexina framework, licensed under the LGPL-LR.
- kurmanji-stemmer - NLTK based kurmanji stemmer
Lingala
lin :: Lingála
- Lingala NLP NLP tools and resources for Lingala
Lushootseed
lut :: Lushootseed
- Lushootseed - Joshua Crowgey's work on Lushootseed http://students.washington.edu/jcrowgey/lushootseed/.
말레이 사람
msa :: Bahasa Melayu
- MorfoMalayu - morphological analysis of Malay words.
마다가스카르 사람
mlg :: Malagasy
- Global Voices Malagasy Project This page provides a link to a corpus of parallel news articles in Malagasy and English from the Global Voices project. This corpus was collected and aligned at the sentence level by Victor Chahuneau.
맨 섬 사람
glv :: Gaelg
- aspell-gv - Manx Gaelic dictionary for aspell.
- gaelg - NLP resources for Manx Gaelic, mainly in support of the gv2ga MT engine.
Migmaq
mic :: Mi'kmaq
- migmaq-lessons - Repository for website building Mi'gmaq language lessons.
Minderico
drc :: Piação do Ninhou
- fredericajordarzambarino - A web based game for mobile devices in minderico based in the "Who Wants to be a Millionaire" TV show.
Nishnaabe
oji :: Ojibwe, Oddawa, Chippewa, Anishinaabemowin, ᐊᓂᔑᓈᐯᒧᐎᓐ
- Ojibway-iphone-app - An iPhone app with audio and images for learning the Ojibway language.
- OjibwayMap - An iPhone app with audio and images for learning Ojibway language and culture.
- nishanimate - A desktop app to facilitate Nishnaabe-language acquisition via animations produced by the natural language processing of audio-accompanied text.
Oromo
orm :: Oromo
- hornmorpho - morphological analysis and generation of amharic and oromo verbs and nouns. and tigrinya verbs
케 체아
que :: Runa Simi
- AntiMorfo - morphological analysis and generation of Quechua nouns, adjectives, and verbs and Spanish verbs.
- Morphology, spellchecker - XFST and FOMA, plus OpenOffice plugin.
Sami
sma :: Sámi/Saami
- divvun-webdemo - simple webdemo for divvun grammar checker. 웹 사이트.
- Giellatekno A host of Sámi tools.
- Mobile keyboards (iOS and Android), learning apps, dictionaries, morphologies, syntax disambiguators, some amount of project collaboration with Apertium on shallow translation between Saami languages, and
- Oahpa! - A learning portal for Saami languages. Includes WordPress based, media rich lesson-based learning, and morphological and syntactic exercizes generated from the morphological and syntactic tools
- Neahttadigisánit - A morphologically sensitive dictionary, with modes for 'social media input' (which allows users to type a 'relaxed' version of the orthography ( acdnstz will be recognized also as áčđŋšŧz̄ ), and also includes a JavaScript bookmarklet to offer click-to-read dictionary lookup functionality. Also available for other Uralic, and non-Uralic languages. Giellatekno does a lot for other minority Uralic languages. Following are some keywords for CTRL+F friendliness:
- Saami languages: North Saami, Lule Saami, South Saami // Inari Saami, Kildin Saami, Pite Saami, Skolt Saami.
- Other Uralic languages: Erzya, Finnish, Hill Mari, Ingrian, Khanty, Kven, Komi, Livonian, Meadow Mari, Moksha, Nenets, Nganasan, Olonetsian, Udmurt, Veps.
- Other languages: Buriat, Cornish, Faroese, Greenlandic, Iñupiaq, Northern Haida, Ojibwe, Plains Cree, Russian.
스코틀랜드 게 일어
gla :: Gàidhlig
- aspell-gd - Scottish Gaelic dictionary for aspell.
- briathrachan - This is the source code to Briathrachan, a Gaelic-English dictionary app for iOS.
- gaidhlig - NLP resources for Scottish Gaelic, mainly in support of gd2ga/ga2gd MT engines.
- gd-fcfg - Context-free feature-based grammar of Scottish Gaelic in the NLTK format.
- gdbank - Some tools and resources for natural language processing of Scottish Gaelic. https://www.tantallon.org.uk/cggblog/.
- hunspell-gd - Files for building Scottish Gaelic spell checkers.
Secwepemctsín
shs :: Secwepemctsín
- secwepemctsnem - A project to help people learn Secwepemctsín.
소말리아
som :: Soomaaliga
- somorph - Somali morphological and syntactic analyzers and generators built on XFST and VISL-CG Constraint Grammar. Up to date version checked in on Giellatekno's repository.
- qaamuus.net morphologically aware dictionary based on lexical resources found online, and the somali morphology.
Tigrinya
tir :: ትግርኛ
- HornMorpho - morphological analysis and generation of Amharic and Oromo verbs and nouns and Tigrinya verbs.
Uralic
urj :: Uralic languages
- UralicNLP - A Python library for processing Uralic languages (Finnish, Skolt Sami, Erzya, Moksha, Komi-Zyrian and so on). The library provides an easy programmatic access to Giellatekno resources such as FST morphology and CG disambiguators. Other functionalities include UD parser, API for the Online Dictionary of Uralic Languages and interface to SemFi and SemUr semantic databases. The library is under active development and new features are added from time to time.
줄루 족
zul :: zulu
- Ukwabelana An open-source morphological Zulu corpus
특허
© Richard Littauer 2014-2017