Bahasa sumber daya rendah
Sumber Daya untuk Konservasi, Pengembangan, dan Dokumentasi Bahasa Rendah Sumber Daya (Manusia).
Menurut beberapa perkiraan, setengah dari 7.000 ~ bahasa yang saat ini diucapkan diperkirakan akan punah abad ini. Namun, ada banyak pekerjaan oleh akademisi, sarjana independen, organisasi, komunitas, dan individu yang digunakan untuk menghentikan atau memperlambat tren ini. Daftar ini dimaksudkan untuk memberikan daftar kode sumber terbuka yang akan berguna untuk mendokumentasikan, melestarikan, mengembangkan, melestarikan, atau bekerja dengan bahasa yang terancam punah.
Grup kendur
Kami memiliki kelompok yang malas untuk diskusi langsung. Bergabunglah dengan kami di sini!
Publikasi
Buku putih yang menggambarkan repositori ini diterbitkan di LREC 2016 CCURL Workshop (kolaborasi dan komputasi untuk bahasa yang kurang sumber daya). Kertas ini ada di repositori ini, di folder papers . Unduh kertas mentah di sini: Kode sumber terbuka yang melayani bahasa yang terancam punah.
Menyumbang
Untuk mengedit daftar ini di GitHub, cukup klik di sini. Jika Anda ingin mendiskusikan sesuatu yang terkait dengan ini, silakan buka masalah. Jika Anda mengetahui sumber daya yang tersedia yang tidak ada dalam daftar ini, silakan tambahkan, baik menggunakan tautan di atas atau dengan mengirimkan permintaan tarik.
Ada lebih banyak detail tentang berkontribusi dalam panduan yang berkontribusi.
Jika Anda tertarik untuk mendiskusikan daftar dalam kapasitas offline, hubungi @RichardLitt. Saya akan dengan senang hati melakukan panggilan telepon atau pertukaran email.
Daftar isi
Daftar isi yang dihasilkan dengan dokter
- Definisi
- Repositori generik
- Proyek dan utilitas leksikografi bahasa tunggal
- Perangkat lunak
- Pembantu konfigurasi tata letak keyboard
- Anotasi
- Spesifikasi format
- repositori terkait i18n
- Otomatisasi Audio
- Teks-ke-speech (TTS)
- Pengenalan Pidato Otomatis (ASR)
- Otomatisasi teks
- Percobaan
- Kartu flash
- Generasi bahasa alami
- Sistem Komputasi
- Aplikasi Android
- Ekstensi Chrome
- Fielddb
- FieldDB WebServices/komponen/plugin
- Repositori Kertas Penelitian Akademik
- Contoh repositori
- Font
- Korpora
- Organisasi
- Di GitHub
- Organisasi OSS lainnya
- Tutorial
- Proyek Khusus Bahasa
- Afrikanas
- bahasa Albania
- Alutiiq
- Amharik
- Basque
- Benggala
- Chichewa
- Galicia
- Georgia
- Font
- Internasionalisasi dan Lokalisasi (I18N/L10N)
- Guarani
- Hausa
- Hindi
- Høgnorsk
- Islandia
- Inuktitut
- Irlandia
- Kinyarwanda
- Kurdi
- Lingala
- Lushootseed
- Melayu
- Malagasi
- Manx
- Migmaq
- Minderico
- Nishnaabe
- Oromo
- Quechua
- Sami
- Gaelik Skotlandia
- Secwepemctsín
- Somalia
- Tigrinya
- Uralic
- Zulu
- Lisensi
Definisi
Bahasa yang terancam punah adalah bahasa manusia yang dalam bahaya kepunahan. Daftar ini juga mencakup bahasa minoritas - bahasa yang digunakan oleh populasi yang stabil, tetapi kecil (misalnya, Malta atau Hawaii); dan bahasa rendah atau kurang sumber daya, yang dapat diucapkan oleh populasi besar tetapi kurang terwakili secara digital (misalnya, Quechua). Bahasa -bahasa ini memiliki kesamaan karakteristik tertentu; Yang paling relevan adalah data yang jarang dan kurangnya sumber daya, mulai dari pemeriksaan ejaan hingga tata bahasa hingga korpora terjemahan mesin. Bahasa lain yang kurang sumber daya yang tidak termasuk dalam daftar ini termasuk bahasa yang dibangun (misalnya, Klingon atau Na'vi), bahasa komputer (misalnya, JavaScript atau Lua), dan bahasa yang punah yang begitu jarang sehingga dianggap tidak relevan secara komputasi untuk sebagian besar tujuan (misalnya, tocah).
Open Source "Mempromosikan akses universal melalui lisensi gratis ke desain atau cetak biru produk, dan redistribusi universal dari desain atau cetak biru itu, termasuk perbaikan selanjutnya oleh siapa pun." (Wiki). Ini penting karena uang dan sumber daya yang dialokasikan untuk bahasa atau proyek yang tidak open source dihabiskan dengan mengorbankan kemungkinan ekstensibilitas di tempat lain.
Daftar ini dulu dinamai endangered-languages . Itu berganti nama untuk mencerminkan bahwa membahayakan adalah istilah yang dimuat yang keduanya mungkin tidak mencerminkan pandangan komunitas bahasa yang berbicara bahasa minoritas. low-resource-languages memfokuskan daftar ini pada kurangnya sumber daya digital dibandingkan dengan bahasa lain yang memiliki sumber daya tinggi.
Tools which are built for these languages are not included (unless relevant for dialects or variants): Arabic, Bulgarian, Catalan, Chinese, Croatian, Czech, Danish, Dutch, English, Estonian, Finnish, Flemish, French, German, Greek, Hebrew, Hungarian, Indonesian, Italian, Japanese, Korean, Latvian, Lithuanian, Norwegian, Norwegian (Bokmål), Persia, Polandia, Portugis, Rumania, Rusia, Serbia, Slovakia, Slovenia, Spanyol, Swedia, Thailand, Turki, Ukraina, Valencia, Vietnam. Daftar ini berasal dari daftar bahasa konten paling populer untuk situs web, di halaman Wikipedia ini. Metrik lain dapat digunakan - jika Anda memiliki yang lain, tolong sarankan!
Daftar ini sangat bagus dalam satu hal; Menampilkan jenis alat yang ada di lapangan, secara umum. Namun, untuk penelitian mendalam ke dalam bahasa atau rangkaian alat tertentu, itu tidak berkinerja sangat baik. Misalnya, daftar semua paket bahasa Firefox atau modul bahasa apertium untuk setiap bahasa sumber daya rendah tidak akan membantu, seperti halnya termasuk semua alat yang tersedia untuk Basque yang dicatat dalam wiki ACL, yang sebagian besar berarti alat katalog melalui kelompok IXA, beberapa di antaranya adalah open source, dan beberapa tidak. Sebaliknya, lihat daftar ini sebagai titik awal untuk penelitian lebih lanjut.
Mencari sumber daya untuk bahasa kode? Lihatlah koleksi daftar yang luar biasa.
Repositori generik
Proyek dan utilitas leksikografi bahasa tunggal
Utilitas
- Proyek untuk Kamus Elektronik Gratis adalah proyek untuk Midlet Java untuk ponsel - untuk kamus bahasa asli.
- Situs Webonary yang meng -host kamus digital untuk bahasa tunggal.
- Wesay - Memungkinkan komunitas bahasa untuk membangun kamus mereka sendiri. https://software.sil.org/wesay/ (oleh SIL International).
Perangkat lunak
- 4lang - Kamus Konsep Menggunakan Mesin Eilenberg.
- Accentuate.us alias "Charlifter". Statistik unikodifikasi teks biasa untuk banyak bahasa
- Alignment-with-OpenFST-Ini adalah implementasi dari Kerangka Autoencoder CRF untuk empat tugas: Penyelarasan kata Bitext, penandaan bagian-of-speech, switching kode, parsing ketergantungan.
- Apertium apertium adalah kotak alat untuk membangun sistem terjemahan mesin transfer dangkal open-source, terutama cocok untuk pasangan bahasa terkait: termasuk mesin, alat pemeliharaan, dan data linguistik terbuka untuk beberapa pasangan bahasa.
- Ark-Tweet-NLP-CMU Ark Twitter Part-of-Speech Tagger ( Fork ).
- Artofreading - Indeks dan skrip pemrosesan yang terkait dengan Koleksi Seni Reading Illustration.
- Bayesline - Klasifikasi Bayesian multinomial untuk identifikasi bahasa.
- Alkitab-Corpus-Tools-Kumpulan alat untuk membaca/memproses korpus Alkitab multibahasa.
- Bloomdesktop - Bloom Desktop adalah hibrida C#/JavaScript/html/css Aplikasi Windows yang secara dramatis "menurunkan bilah" untuk komunitas bahasa yang menginginkan buku dalam bahasa mereka sendiri. Bloom memberikan sistem pelatihan rendah, output tinggi di mana penutur bahasa ibu dan para pendukungnya bekerja sama untuk menumbuhkan kepenulisan masyarakat dan akses ke materi eksternal ... https://bloomlibrary.org/.
- Bloomlibrary - aplikasi Bloom Library Single Page, menggunakan AngularJS & Bootstrap, Parse.com Backend. https://bloomlibrary.org/.
- Otak - Jaringan saraf di JavaScript.
- Alat Morfologi Bristol Uni MT - Repo ini adalah cermin skrip yang sebelumnya tersedia di http://www.cs.bris.ac.uk/research/machinelearning/morphology/resources.jsp. Termasuk: Ukwabelana - Zulu Corpus dan Emma morfologis open -source: metrik evaluasi baru untuk analisis morfologis.
- Brown -cluster - C ++ Implementasi algoritma pengelompokan kata coklat.
- Casualcon CasualcCONC adalah program konkordansi yang berjalan secara native di Mac OS X 10.5 macan tutul atau lebih baru. Awalnya dirancang untuk penggunaan kasual (analisis awal atau tujuan non-penelitian), meskipun [pemelihara] telah menggunakannya untuk penelitiannya sendiri (dan mungkin orang lain). Ini dapat menghasilkan garis konkordansi KWIC, kelompok kata, analisis kolokasi, dan jumlah kata.
- CDEC - Decoder, Aligner, dan Model Optimizer untuk terjemahan mesin statistik dan model prediksi terstruktur lainnya berdasarkan (kebanyakan) formalisme bebas konteks.
- Charlint Charlint adalah alat normalisasi/pemeriksaan karakter yang ditulis dalam Perl. Antara lain, ini mengimplementasikan bentuk normalisasi C dari unicode TR 15, sebagai platform uji untuk normalisasi seragam awal dalam model karakter W3C.
- Chorus - Sistem kontrol versi yang dirancang untuk memungkinkan alur kerja yang sesuai untuk tim pengembangan bahasa yang khas yang didistribusikan secara geografis.
- CLAM-Mediator Aplikasi Linguistik Komputasi-dengan cepat mengubah aplikasi NLP menjadi layanan web yang tenang dengan front-end aplikasi web. Anda memberikan spesifikasi aplikasi baris perintah Anda, input, output, dan parameternya, dan kerang membungkus di sekitar aplikasi Anda untuk membentuk layanan web REST yang lengkap.
- CMU SPHINX CMUSPHINX adalah pengukur ucapan kontinu kosakata besar yang independen yang dirilis di bawah lisensi gaya BSD. Ini juga merupakan kumpulan alat dan sumber daya open source yang memungkinkan para peneliti dan pengembang untuk membangun sistem pengenalan suara.
- CNMINLANGWEBCOLLECT - Deteksi Bahasa Minoritas Minoritas dan Koleksi Situs Web.
- COG - COG adalah alat untuk membandingkan bahasa menggunakan leksikostatistik dan teknik linguistik komparatif. Ini dapat digunakan untuk mengotomatisasi banyak proses membandingkan daftar kata dari varietas bahasa yang berbeda. http://sillsdev.github.io/cog/.
- ConvertExtract - Konversi file Excel, Word dan PowerPoint dengan teks non -Usicode (seperti teks yang membutuhkan font SIL) menjadi Unicode, sambil melestarikan pemformatan file asli.
- Corpustools - Corpustools fonologis http://phonologicalcorpustools.github.io/corpustools/.
- CTK-Dibangun di sekitar LDC's Champollion Kalimat Aligner Kernel, Champollion Tool Kit (CTK) bertujuan untuk menyediakan alat penyelarasan kalimat paralel yang siap digunakan untuk pasangan sebanyak mungkin pasangan bahasa. (Proyek asli ada di SourceForge: http://champollion.sourceForge.net).
- DataTags - Suatu sistem untuk menilai sensitivitas dan risiko privasi dari suatu dataset, dan menetapkan tag untuk menggambarkan bagaimana dataset harus ditransfer, disimpan, dan diakses. ( Garpu ).
- DataVerse - Kerangka kerja repositori data untuk berbagi dan mempublikasikan data penelitian.
- Dative - Dative: Perangkat Lunak untuk Kerja Lapangan Linguistik http://www.dative.ca.
- Dative - Aplikasi satu halaman yang berinteraksi dengan beberapa database layanan web linguistic work. Situs web.
- DEEPEARNTOOLBOX - MATLAB/OCTAVE Toolbox untuk pembelajaran yang mendalam. Termasuk jaring kepercayaan yang mendalam, autoencoder yang ditumpuk, jaring saraf konvolusional, autoencoder convolutional dan vanilla neural nets. Setiap metode memiliki contoh untuk memulai.
- Desmeme - Database dan alat untuk mengeksplorasi template linguistik.
- DICTDB - Database Kamus untuk Terjemahan Bahasa.
- DiscourseGraphs - Alat berbasis Python untuk mengonversi dan menggabungkan data linguistik beranotasi multilayer.
- Divvun-Gramcheck-Program ini melakukan pencarian FST pada formulir yang ditentukan sebagai pembacaan format tata bahasa kendala, dan mencari-tag kesalahan dalam file XML dengan pesan yang dapat dibaca manusia. Ini dimaksudkan untuk digunakan sebagai tahap akhir dari pipa checker tata bahasa.
- Divvun -Keyboard - Aplikasi keyboard untuk iOS dan Android dengan tata letak keyboard untuk bahasa asli dan minoritas
- Divvunspell -
hfst-ospell (di bawah) ditulis ulang di Rust, untuk konkurensi yang kuat dan manajemen memori. Digunakan secara praktis sekitar 10x lebih cepat dari hfst-ospell . Ini menggunakan file ZHFST yang sama dengan hfst-ospell , yang tersedia untuk semua bahasa di Giellalt Github Org (lihat di bawah). - DLTK - Kit Alat Bahasa Deutsch. Lagi.
- Epitran - Grapheme to Phoneme Conversion (G2P) untuk banyak bahasa rendah sumber daya.
- Penatua: Repositori Data Bahasa yang Terancam Punah-Data Bahasa yang Terancam Punah Repositori Elektronik: Alat Kataloging Data Linguistik Kolaboratif Ontologis Berbasis Web.
- ENCHAN - PERPUSTAKAAN ENCHANCHCECKING HTTPS://ABIWORD.GITHUB.IO/ENCHANT/.
- EXSITE9 - EXSITE9 adalah aplikasi desktop yang dibangun untuk memfasilitasi para peneliti dengan mudah dan cepat menandai file data mereka dengan metadata deskriptif dan kemudian mengemas file data mereka dan metadata terkait siap untuk diserahkan ke repositori. ExSite9 juga memungkinkan untuk organisasi struktural file -file tersebut yang benar -benar memindahkan lokasi fisik mereka pada penyimpanan file lokal Anda; memungkinkan Anda untuk mengatur file dan metadata Anda dengan benar siap untuk dikemas.
- Fast_align - Aligner kata sederhana dan cepat tanpa pengawasan.
- FastText - Perpustakaan untuk Representasi dan Klasifikasi Teks Cepat.
- FieldWorks - FieldWorks adalah serangkaian perangkat lunak untuk data bahasa dan budaya, dengan dukungan untuk skrip yang kompleks. https://software.sil.org/fieldworks/ Fieldworks Language Explorer (atau Flex, singkatnya) dirancang untuk membantu ahli bahasa bidang melakukan banyak tugas dokumentasi dan analisis bahasa umum. Ini dapat membantu Anda: Mendapatkan dan merekam informasi leksikal, membuat kamus, menginteriniasi teks, menganalisis fitur wacana, mempelajari morfologi.
- Franc - Deteksi Bahasa Alami https://wooorm.com/franc/.
- FWDocumentation - Dokumentasi Pengembang untuk FieldWorks (Perangkat Perangkat Lunak untuk Data Bahasa dan Budaya, dengan dukungan untuk skrip kompleks).
- FWLocalizations - Lokalisasi untuk Fieldworks.
- FWSupportTools - Alat tambahan untuk pengembangan Fieldworks.
- GAIA - GAIA adalah UI telepon berbasis HTML5 untuk proyek Boot 2 Gecko. Catatan: Untuk perincian cabang apa yang digunakan untuk rilis apa, lihat wiki. Jika Anda tertarik untuk menyiapkan keyboard dalam bahasa baru, lihat ini.
- Giellakbd-Android-Fork of Latinime (oleh Google for Android), menargetkan bahasa yang terpinggirkan yang juga layak mendapatkan status kelas satu pada sistem operasi seluler. Digunakan oleh KBDGen (lihat di tempat lain di halaman ini).
- giellakbd -ios - ulang sumber terbuka dari keyboard iOS asli Apple dengan fokus khusus pada dukungan untuk keyboard lokal. Digunakan oleh KBDGen (lihat di tempat lain di halaman ini).
- Giza-PP-Giza ++ adalah toolkit terjemahan mesin statistik yang digunakan untuk melatih model IBM 1-5 dan model perataan kata HMM. Paket ini juga berisi sumber untuk alat MKCLS yang menghasilkan kelas kata yang diperlukan untuk melatih beberapa model penyelarasan.
- GV -Crawl - Global Voices Bitext Crawler untuk menciptakan korpora paralel.
- Glotlid - Identifikasi bahasa FastText dengan dukungan untuk lebih dari 2000 label.
- Glottolog Data - Glottolog memberikan informasi referensi yang komprehensif untuk bahasa dunia.
- Gramadóir - Mesin Pemeriksa Tata Bahasa yang dirancang untuk pengembangan cepat pemeriksa tata bahasa untuk bahasa minoritas dan bahasa lain dengan sumber daya komputasi terbatas.
- Grind - Plug -in InDesign 5.5 Dirancang Izinkan Graphite Diaktifkan Font Smart untuk digunakan di Adobe InDesign. Proyek ini mengintegrasikan teknologi Font Smart Graphite 2 SIL dengan implementasi plugin komposer paragraf kami sendiri.
- Hermitcrab-Hermitcrab.net adalah parser morfologis/fonologis yang fleksibel yang mengambil pendekatan item-dan-proses.
- HFST -OSPELL - Perpustakaan Pemeriksa Ejaan HFST dan Alat Baris Perintah.
- HFST-OSPELL-JS-BINDING NODE UNTUK HFST-OSPEL.
- HFST-OPTIMIZED-LOOKUP-HFST OPTOPERSEAL LIVERLARY STANDALONE DAN COMMAND LINE TOOL.
- Hundict - Ekstraktor Kamus Bilingual dari Parallel Corpora.
- HUNSPELL - Perpustakaan dan program penganalisa morfologis dan program yang dirancang untuk bahasa dengan morfologi yang kaya dan peracikan kata atau pengkodean karakter yang kompleks.
- Huntag - Tagger berurutan untuk NLP menggunakan pembelajaran entropi maksimum dan model Markov tersembunyi.
- ICU -DOTNET - C# Wrapper untuk ICU4C.
- ICU4C - Cermin proyek SVN di http://source.icu-project.org/repos/icu/icu/. Cabang FieldWorks memiliki beberapa peningkatan khusus lapangan.
- Ilanguage - Penganalisa morfologis independen yang tidak terwujud semi -tidak divisvisi berguna untuk membendung teks bahasa yang tidak diketahui, atau mendapatkan perkiraan kasar kemungkinan parse untuk morfem dalam sebuah kata. Input: Corpus. Menggunakan kompresi, entropi maksimum dan fieldlinguistik.
- IPA -Help - IPA membantu.
- Itweets -Geodata - Geodata dari tweet asli.
- JQuery.ime - Perpustakaan Metode Input Berbasis JQuery.
- KBDGEN - Hasilkan keyboard dan tata letak keyboard untuk berbagai sistem operasi.
- Koreksyon-Alat untuk mengembangkan dan mengimplementasikan kemampuan memeriksa ejaan dan periksa tata bahasa dalam bahasa sumber daya rendah.
- L20N.JS - L20N menciptakan kembali lokalisasi perangkat lunak. Pengguna harus dapat memperoleh manfaat dari seluruh kekuatan ekspresif bahasa alami. L20N menjaga hal -hal sederhana sederhana, dan pada saat yang sama memungkinkan hal -hal yang rumit. Ini adalah implementasi JavaScript dari L20N. http://l20n.org.
- Langid.py - Sistem identifikasi bahasa yang berdiri sendiri.
- Langtech sejumlah sumber daya yang disediakan di SVN oleh University of Tromsø. Detail ada di sini dan dalam bahasa Inggris di sini.
- Lego Unified Concepticon - Materi yang berkaitan dengan Lego Unified Concepticon.
- Lex4all - leksikon pengucapan untuk setiap bahasa rendah sumber daya http://lex4all.github.io/lex4all/.
- LEXDB - LEXDB adalah database pelacakan kognitif leksikal. Ini menyimpan sumber penuh dari semua leksem dan penilaian serumpun, dan memungkinkan ekspor ke sejumlah dialek nexus. Basis data ditulis dalam kerangka kerja web Python/Django yang fleksibel.
- LFMerge - Kirim/terima untuk languageforge.org.
- Liblevenshtein - Perpustakaan untuk menghasilkan transduser keadaan terbatas berdasarkan Levenshtein Automata.
- Libpalaso - Perpustakaan Palaso: Satu set perpustakaan .NET yang berguna untuk pengembang perangkat lunak bahasa.
- Lingo Grammar Matrix The Lingo Grammar Matrix adalah kerangka kerja untuk pengembangan tata bahasa yang luas, presisi, diimplementasikan untuk beragam bahasa.
- Lingpy - Lingpy: Perpustakaan Python untuk tugas kuantitatif dalam linguistik historis http://lingpy.org.
- Linguistica Linguistica adalah program yang dirancang untuk mengeksplorasi pembelajaran bahasa alami yang tidak diawasi, dengan fokus utama pada morfologi (struktur kata). Ini berjalan di bawah Windows, Mac OS X dan Linux, dan ditulis dalam C ++ dalam kerangka pengembangan QT. Tuntutannya pada memori tergantung pada ukuran corpus yang dianalisis.
- Long -Press - Plugin jQuery untuk memudahkan penulisan karakter beraksen atau langka. http://toki-woki.net/lab/long-press/.
- Low-resource-pos-tagging-2014 Pos-tagging rendah sumber daya: 2014
- LRL - Untuk pekerjaan tentang bahasa sumber daya rendah.
- MacVoikko - Server ejaan OS X berdasarkan Voikko.
- Mesin - Mesin adalah perpustakaan pemrosesan bahasa alami untuk .NET yang berfokus pada penyediaan alat untuk memproses bahasa miskin sumber daya (digunakan oleh Flex).
- Make -Extensions - Script untuk menghasilkan ekstensi hunspell ejaan.
- MGIZA - Alat penyelarasan kata berdasarkan Giza ++ yang terkenal, diperluas untuk mendukung multi -threading, pelatihan melanjutkan dan pelatihan tambahan.
- Minoritas Translate Minoritas Translate adalah program sederhana untuk membantu pembuatan konten pada wikipedia berukuran lebih kecil (sebenarnya ukuran apa pun) dengan memberikan petunjuk pada artikel yang ada dalam wikipedias bahasa lain, sehingga pengguna dapat dengan mudah menerjemahkan atau mengadaptasi teks yang ada dan dengan demikian meningkatkan ukuran dan penggunaan edisi wikipedia mereka.
- Morfessor - Morfessor adalah alat untuk segmentasi morfologis yang tidak diawasi dan semi -diawasi.
- Model bahasa morfolm - morfologi -sadar.
- MORPH -TEST - Skrip python untuk menjalankan tes untuk generasi dan analisis transduser morfologis yang dibangun menggunakan infrastruktur Giella. Bekerja dengan alat FST HFST, Xerox, dan dengan FOMA.
- MosesDecoder - Musa, sistem terjemahan mesin.
- MOZ-L10N-tiers-Membuat pseudo-Locale untuk mengevaluasi prioritas string untuk L10N.
- MUKURTUCMS - Sistem Manajemen Konten Mukurtu (CMS) adalah platform berbasis internet yang dirancang untuk memungkinkan pengarsipan sumber daya budaya digital
- Mythes - Mythes adalah tesaurus sederhana yang menggunakan file data teks terstruktur dan file indeks dengan pencarian biner untuk mencari kata dan frasa dan mengembalikan informasi pada bagian dari ucapan, makna, dan sinonim.
- MyWorksafe - Cadangan Cerdas & Sederhana untuk Pekerja Pengembangan Bahasa. http://software.sil.org/myworksafe/.
- NABU - NABU adalah sistem manajemen item media digital yang menyediakan katalog item audio dan video, metadata untuk item ini, dan informasi tentang status alur kerja item. www.paradisec.org.au
- Natural - Fasilitas Bahasa Alami JavaScript Umum untuk Node.
- Nist 2008 Open Machine Translation Evalutation
- NLTK - Kit Alat Bahasa Alami Python . Sumber NLTK http://www.nltk.org/.
- Node -Panlex - Node.js Klien untuk Panlex.
- Norma - Alat untuk normalisasi ejaan otomatis.
- NPLM - Fork of https://nlg.isi.edu/software/nplm/ dengan beberapa efisiensi tweak dan adaptasi untuk digunakan di MosesDecoder.
- Octothorpe - hal wiki bertenaga CouchDB.
- ODTXSLT - Lakukan transformasi XSLT pada konten paket (seperti ODT, DOCX, dll.).
- Old-WebApp-Database Linguistik Online --- Perangkat Lunak untuk Membuat Aplikasi Web untuk secara kolaboratif mendokumentasikan bahasa.
- Lama - Database Linguistik Online (Lama): Perangkat Lunak untuk Kerja Lapangan Linguistik. http://www.onlinelinguisticdatabase.org.
- Lama -piramida - Database linguistik online bermigrasi ke kerangka piramida.
- OMEGAT-HFST-TOKENIZER-OMEGAT-HFST-Tokenizer menyediakan tokenisasi berbasis FST di Omegat.
- Opendatakit Open Data Kit (ODK) adalah rangkaian alat open-source yang membantu organisasi penulis, bidang, dan mengelola solusi pengumpulan data seluler
- OpenNLP - Perpustakaan Apache OpenNLP adalah toolkit berbasis pembelajaran mesin untuk pemrosesan teks bahasa alami. Situs web.
- OPS -DEVBOX - Ansible Playbook untuk mesin pengembang (Linux).
- Panlex -Tools - Paket ini berisi skrip untuk mengubah sumber daya leksikal menjadi format yang cocok untuk diimpor ke Panlex. Dokumentasi dapat ditemukan di https://dev.panlex.org.
- PDSC-Collection-Viewer-Browser Koleksi Paradise
- Paradigma - Paradigma adalah implementasi .NET (C#) dari karya Joseph E. Grimes '1983 berjudul "Posisi Affix and Cooccurrences: The Paradigma Program".
- Pathway - Mempersiapkan data bahasa untuk publikasi.
- PDFDROPLET - PERPUSTAKAAN DAN GUI untuk pengenaan halaman PDF (mis.
- Pepper - Pepper adalah kerangka konverter open source yang bisa pluggable, berbasis java untuk data linguistik.
- Fonologi -Assistant - Asisten Fonologi adalah alat penemuan. Disediakan dengan kumpulan data fonetik, secara otomatis memetakan suara dan melalui kemampuan pencariannya, membantu pengguna menemukan dan menguji aturan suara dalam suatu bahasa.
- Pressagio - Pressagio adalah perpustakaan yang memprediksi teks berdasarkan model N -gram. Misalnya, Anda dapat mengirim string dan perpustakaan akan mengembalikan penyelesaian kata yang paling mungkin untuk token terakhir dalam string.
- PrimerPro - Tujuan PrimerPro adalah untuk membantu pekerja literasi dalam pengembangan primer untuk bahasa tertentu.
- Pydelphin - Perpustakaan Python untuk Delph -In (Friendly Fork).
- RBGParser - Parser Ketergantungan Berbasis Grafik.
- Rosetta Pangloss - Sistem Pangloss Proyek Rosetta.
- Salm - Salm: Suffix Array dan aplikasinya dalam pemrosesan bahasa empiris dengan sukacita.
- SALT - Model berbasis grafik untuk menyimpan dan memanipulasi data linguistik.
- Saymore - Alat untuk membuat tugas dokumentasi bahasa umum seperti menjaga semua file yang dihasilkan dan data meta terorganisir, mengonversi file ke format arsip, dan transkripsi.
- SecWepemc -Facebook - Terjemahkan Facebook ke dalam bahasa yang tidak didukung.
- SegParser - Algoritma serakah acak untuk segmentasi bersama, penandaan POS dan parsing ketergantungan.
- Bibit - Membangun dan menggunakan corpus benih untuk proyek bahasa manusia.
- Skype dalam bahasa Anda - Terjemahkan Skype ke dalam bahasa yang tidak didukung.
- Solid - Solid adalah alat perangkat lunak yang dapat digunakan untuk memeriksa, membersihkan, dan mengonversi data leksikon format standar (misalnya Toolbox).
- Sphere Konversi Alat Banyak LDC Corpora berisi file ucapan dalam format NIST Sphere. Program di bawah ini mengonversi file sphere ke format lain.
- StandardFormatLib - Perpustakaan Format Standar.
- Stanford Corenlp - Stanford Corenlp: Java Suite of Core NLP Tools. https://stanfordnlp.github.io/corenlp/.
- Stanford Corenlp Python - Pembungkus Python untuk Stanford Corenlp Tools.
- STANZA - alat Python bersama Stanford NLP Group.
- Str2IPA-Kamus pengucapan untuk bahasa dengan sistem penulisan dekat-ke-fonetik.
- Sugali - Ini adalah repositori lama dari proyek identifikasi bahasa untuk banyak (banyak) proyek bahasa untuk kursus proyek perangkat lunak, proyek NLP untuk bahasa rendah sumber daya.
- Identifikasi bahasa gula - bahasa untuk bahasa sumber daya rendah (oleh Susanne, Guy dan Liling).
- Silabipy - Antarmuka Python untuk Algoritma Silabifikasi Universal
- Tasty-Imitation-Keyboard-Keyboard khusus untuk iOS8+ yang berfungsi sebagai imitasi lezat dari keyboard Apple default. Dibangun menggunakan Swift dan teknologi Apple terbaru!.
- Teckit - toolkit konversi pengkodean teks.
- TENY - Alat untuk terjemahan mesin rendah sumber daya.
- Teradict - menerjemahkan kata -kata bahasa Inggris ke dalam ratusan bahasa!.
- Tesseract.js - JavaScript murni OCR untuk 62 bahasa ?? http://tesseract.projectnaptha.com/.
- Texnlp - TexNLP: Alat pemrosesan bahasa alami Texas.
- Timbl Timbl adalah paket perangkat lunak sumber terbuka yang menerapkan beberapa algoritma pembelajaran berbasis memori, di antaranya IB1-IG, implementasi klasifikasi tetangga K-Nearest dengan bobot fitur yang cocok untuk ruang fitur simbolik, dan IGTREE, perkiraan pohon keputusan IB1-IG. Semua algoritma yang diimplementasikan memiliki kesamaan bahwa mereka menyimpan beberapa representasi dari set pelatihan secara eksplisit dalam memori. Selama pengujian, kasus baru diklasifikasikan oleh ekstrapolasi dari kasus tersimpan yang paling mirip.
- Toney - Perangkat Lunak Klasifikasi Nada.
- Toolbox ahli bahasa - Toolbox adalah alat manajemen data dan analisis untuk ahli bahasa bidang. Ini sangat berguna untuk memelihara data leksikal, dan untuk penguraian dan teks interlinier, tetapi dapat digunakan untuk mengelola hampir semua jenis data.
- Script kotak alat untuk Elan - cermin skrip kotak alat Alexander Koenig https://tla.mpi.nl/tools/tla-tools/elan/theRdparty/.
- ToolsForfieldlingUistics - Kumpulan skrip dan resep untuk linguistik.
- Transcriber - Alat transkripsi HTML5 untuk Aikuma
- Translitit -Engine - mesin transliterasi yang ditulis dalam JavaScript.
- Tsammalex Data - Tsammalex adalah database leksikal multibahasa pada tumbuhan dan hewan.
- Tweet2Learn - aplikasi untuk memudahkan menggunakan bahasa ibu Anda di Twitter.
- Twitter_langid - jaringan saraf kata -kata hierarkis untuk identifikasi bahasa.
- Universaldependencies Docs - Dokumentasi Dependensi Universal Online http://universaldependencies.org/docs/.
- Alat Universaldependensi - berbagai utilitas untuk memproses data.
- Vocbench Vocbench adalah alat berbasis web, multibahasa, pengeditan dan alur kerja yang mengelola tesauri, daftar otoritas dan glosarium menggunakan SKOS-XL.
- WAVESURFER.JS - Bentuk gelombang yang dapat dinavigasi yang dibangun di atas audio web dan kanvas https://wavesurferfer-js.org/ (juga memiliki plugin Elan).
- Web-Template-Ini adalah templat berbasis web yang dapat digunakan untuk menyajikan sumber belajar bahasa untuk membantu upaya revitalisasi bahasa. Ini termasuk kamus yang berbicara, dan phrasicon, berisi kalimat dan frasa.
- WebCorpus - Proyek ini adalah kumpulan skrip dan program untuk membuat webcorpus dari data merangkak.
- Wikt2Dict - alat parser wiktionary untuk banyak edisi bahasa.
- Wikipron - Retrives Pengucapan IPA untuk entri Wiktionary
- Word Generator WordGenerator menghasilkan kata -kata hipotetis dari spesifikasi struktur suku kata mereka.
- Wordboundary - Eksperimen dalam deteksi dan segmentasi batas kata.
- WordByword-WordByword adalah pelatih kosakata multimedia yang gratis, open source, yang mudah digunakan yang dikembangkan oleh Vera Ferreira, Peter Bouda, dan Ricardo Filipe di tungku dengan dukungan dasar untuk bahasa yang terancam punah.
- WSI4URlang - induksi indera kata (WSI) untuk bahasa yang kurang sumber daya (Urlang).
- Xdxf_makedict - format kamus XDXF dan Kamus "Makedict" Converting Software (Repositori Resmi).
Pembantu konfigurasi tata letak keyboard
- JQuery.ime - Editor Metode Input JQuery Digunakan di Wikipedia
- KBDGEN - Hasilkan keyboard dan tata letak keyboard untuk Windows, MacOS, X11, iOS, Android dan Chrome, dari satu file YAML sederhana. Juga register bahasa yang tidak diketahui oleh Windows, sehingga setelah instalasi, ada hubungan yang benar dan kuat antara kode BCP 47 yang ditunjuk (termasuk dukungan penuh untuk ISO 639-3) dan alat bahasa yang diinstal seperti keyboard, pemeriksa ejaan, dan alat lainnya.
- Keyboard - Keyboard Virtual Menggunakan JQuery ~ https://mottie.github.io/keyboard/.
- Keyboard - keyboard keyman open source.
- Keyman - Metode Input Platform Keyman Cross. Keyman memungkinkan Anda untuk mengetik lebih dari 1.000 bahasa di Windows, iPhone, iPad, tablet android dan ponsel, dan bahkan secara instan di browser web Anda. Situs web.
- KeyboardLayoutEditor - Editor tata letak keyboard https://code.google.com/archive/p/keyboardlayouteditor/.
- Editor Tata Letak Keyboard-Editor Tata Letak Keyboard http://www.keyboard-layout-editor.com
- Lipika-IME-Input Metode Engine (IME) untuk Mac OS X dengan dukungan bawaan untuk semua bahasa indic.
- XkeyboardConfig - Basis data konfigurasi keyboard non -Arch untuk X Window. Tujuannya adalah untuk menyediakan data konfigurasi keyboard X keyboard yang konsisten, terstruktur dengan baik, dan sering dirilis untuk implementasi sistem X Window (gratis, open source, dan komersial). Proyek ini ditargetkan untuk sistem berbasis XKB.
Anotasi
- AGTK - AGTK adalah serangkaian komponen perangkat lunak untuk membangun alat untuk menganotasi sinyal linguistik, data seri waktu yang mendokumentasikan segala jenis perilaku linguistik (misalnya audio, video). Struktur data internal didasarkan pada grafik anotasi. (Proyek asli ada di SourceForge: https://sourceforge.net/projects/agtk/).
- Brendano - Bahasa Fragmen Grafik untuk Anotasi Sintaksis Mudah https://www.cs.cmu.edu/~ark/fudg/.
- Elan Elan adalah alat profesional untuk pembuatan anotasi kompleks pada sumber daya video dan audio.
- EOPAS - Sistem presentasi dan anotasi online etnoer.
- Alat Anotasi Linguistik Flat - Folia - Flat adalah lingkungan anotasi linguistik berbasis web yang berbasis di sekitar format Folia (http://proycon.github.io/folia/), format berbasis XML yang kaya untuk anotasi linguistik. Flat memungkinkan pengguna untuk melihat dokumen Folia yang beranotasi dan memperkaya dokumen -dokumen ini dengan anotasi baru, berbagai jenis anotasi linguistik didukung melalui paradigma Folia. Ini adalah alat yang berpusat pada dokumen yang sepenuhnya melestarikan dan memvisualisasikan struktur dokumen.
- GFL_SYNTAX - Bahasa Fragmen Grafik Untuk Anotasi Sintaksis Mudah https://www.cs.cmu.edu/~ark/fudg/.
- Graf-Python-Perpustakaan Graf-Python adalah implemenasi Python open source untuk menguraikan dan menulis file graf/xml seperti yang dijelaskan dalam ISO 24612. Parser perpustakaan membuat grafik anotasi dari file. Pengguna kemudian dapat menanyakan grafik anotasi melalui API Graf-Python.
- Kwaras - Alat untuk manajemen Elan Corpus.
- LDC Word Aligner LDC Word Aligner adalah alat perangkat lunak yang digunakan untuk anotasi manual dari perataan kata yang dikembangkan untuk mendukung tugas-tugas Alignment Word ARAB-ORABIC-Bahasa Inggris dan Cina-Inggris. Ini memiliki antarmuka yang bersih dan mudah digunakan. Sejak pengembangannya pada tahun 2009, LDC telah menggunakan LDC Word Aligner untuk menghasilkan lebih dari 1.000.000 token data penyelarasan kata beranotasi dari berbagai genre termasuk sumber siaran, newswire dan berbasis web. Situs web.
- Poio -Analyzer - Poio adalah kumpulan perangkat perangkat lunak untuk ahli bahasa yang bekerja dalam dokumentasi bahasa, linguistik deskriptif dan/atau tipologi bahasa. Ini memungkinkan ahli bahasa untuk mengelola dan menganalisis data mereka. The Poio Interlinear Editor allows to add morpho-syntactic annotations to transcriptions. It supports various file formats for input, but will only output standardized XML defined by the Corpus Encoding Standard and the Text Encoding Initiative. Several tools for analyzing linguistic data will be made available to further process annotated data. Poio tools are written in Python and are based on PyQt.
- poio-api - Poio API is a free and open source Python library to access and search data from language documentation in your linguistic analysis workflow. It converts file formats like Elan's EAF, Toolbox files, Typecraft XML and others into annotation graphs as defined in ISO 24612. Those graphs, for which we use an implementation called “Graph Annotation F…
- pyannotation - PyAnnotation is a Python Library to access and manipulate linguistically annotated corpus files.
- XTrans Trans is a next generation multi-platform, multilingual, multi-channel transcription tool that supports manual transcription and annotation of audio recordings. The XTrans toolkit provides new and efficient solutions to common transcription challenges and addresses critical gaps in existing tools.Designed with input from experienced human transcribers working with real world data, XTrans provides a flexible and intuitive graphical user interface for a multitude of speech annotation tasks including (virtual) segmentation of audio into smaller units like turns and sentences; speaker identification; orthographic transcription in any language; and labeling of structural elements of the transcript like topics.
Format Specifications
- spec - The official specification for the DLx linguistic data format. https://digitallinguistics.github.io/spec/.
- FoLiA FoLiA: Format for Linguistic Annotation - FoLiA is a rich XML-based annotation format for the representation of language resources (including corpora) with linguistic annotations. A wide variety of linguistic annotations are support, making FoLiA a useful format for NLP tasks and data interchange. http://proycon.github.io/folia/
- xdxf_makedict - XDXF dictionary format and "makedict" dictionary converting software (official repository).
i18n-related Repositories
- Express-Lingua - An i18n middleware for the Express.js framework.
- Polyglot.js Give your JavaScript the ability to speak many languages.
- Transifex - System for providing a nice, userfriendly/project oriented approach to translating
.po files. Great for non-technical users, free for open-source projects, decent for minority languages; however , it can take a while to get a new language added to the Transifex system because the ticketing system Transifex uses results in them losing tickets sometimes. Provides translation memory, ability to appoint reviewers, etc. Transifex used to have an open source system that you could host on your own, but that seems to have disappeared.
Audio automation
- arctic-prompts - Generate prompts PDF for CMU ARCTIC dataset.
- AudioWebService - a simple nodejs server which accepts upload of audio and runs it through praat.
- AuToBI - Automatic prosodic annotation tool written in Java.
- BashScriptsForPhonetics - ( Fork of a dormant project).
- esv-text-audio-aligner - ESV Text/Audio Aligner to programmatically obtain the timings for each word in the corresponding audio.
- html5-audio-read-along - HTML5 Audio Read-Along.
- ipa-chart - International Phonetic Alphabet (IPA) Unicode Chart and Character Picker.
- kaldi-svn-archive - An read-only archive of the original Kaldi SVN repository (mainly to keep sandboxes available).
- lex4all - pronunciation LEXicons for Any Low-resource Language ( Fork of a student project).
- Montreal-Forced-Aligner - Python interface for forced text/speech alignment.
- node-pocketsphinx
- opensauce - GNU Octave-compatible version of VoiceSauce.
- pocketsphinx - PocketSphinx is a lightweight speech recognition engine, specifically tuned for handheld and mobile devices, though it works equally well on the desktop.
- pocketsphinx-ios-demo - Simple demo for iOS.
- pocketsphinx-python - Python module installed with setup.py.
- pocketsphinx-ruby - Ruby speech recognition with Pocketsphinx.
- pocketsphinx-wp-demo - Demo to run pocketsphinx on WP8 platform.
- pocketsphinx.js - Speech recognition in JavaScript.
- praat-py - From my PhD days: Praat-Py is a custom build of Praat, the computer program used by linguists for doing phonetic analysis on sound files, to allow for scripts to be written in the Python programming language, rather than in Praat's built-in language. ( Fork of a dormant project).
- Praat-Scripts - Mietta's Scripts.
- PraatTextGridJS - A small library which can parse TextGrid into json and json into TextGrid.
- PraatontheWeb - Web implementation of Praat. Source code, running demo scripts on web, samples and documentation.
- prosodicParsing - different kinds of HMMs to use for incorporating prosody into basic parsing.
- Prosodylab-Aligner - Python interface for forced audio alignment using HTK and SoX.
- prosodylab.alignertools
- Recordmp3js - Record MP3 files directly from the browser using JS and HTML.
- sphinx4 - Pure Java speech recognition library.
- sphinxbase
- sphinxtrain
- TLSphinx - Swift wrapper around Pocketsphinx.
Text-to-Speech (TTS)
- espeak - eSpeak is a compact open source software speech synthesizer for English and other languages, for Linux and Windows. http://espeak.sourceforge.net.
- MARY TTS - MARY TTS -- an open-source, multilingual text-to-speech synthesis system written in pure java http://mary.dfki.de.
- Ossian - Ossian is a collection of Python code for building text-to-speech (TTS) systems, with an emphasis on easing research into building TTS systems with minimal expert supervision.
Automatic Speech Recognition (ASR)
- Elpis - Elpis is software for creating speech recognition models and applying them to the transcription of audio. As of 2022, it gives access to Kaldi and Huggingface Transformers.
- kaldi - This is now the official location of the Kaldi project.
- Persephone - Persephone aims to make state-of-the-art phonemic transcription accessible to people involved in language documentation, who have a training corpus of about one to four hours of transcribed speech. As of 2022, Persephone is superseded by Elpis.
Text automation
- clld - Cross Linguistic Linked Data python library.
- LaTeX2HTML5 - LaTeX web components.
- MultilingualCorporaExtractor - Node io Spider for extracting multilingual corpora ( Fork of a student project).
- SeedLing - Building and Using A Seed Corpus for the Human Language Project ( Fork of a student project).
Percobaan
- experigen - A framework for creating linguistic experiments.
- GamifyPsycholinguisticsExperiments - A simple node server to gamify linguistics experiments, runs offline on a laptop for small scale experiements and online on a server for large scale experiments. Data is sent to a Google spreadsheet. ( Fork of a dormant project).
- OpenSesame - Graphical experiment builder for the social sciences.
- OPrime - Open Source Experimentation Libraries - Online and Offline for Android and HTML5.
- psychopyMegProsody - Runs MegProsody using PsychoPy.
- PsychScript - A HTML5/Javascript library for running behavioural experiments online.
Flashcards
- Anki - Anki is a program to make and share flaschard decks (including audio) for any language or writing system. https://apps.ankiweb.net/.
- awesome-anki - A curated list of awesome Anki add-ons, decks and resources.
- VocabLift - Language-learning tool that uses vocabulary from LIFT-format dictionaries produced by programs such as Fieldworks Language Explorer and WeSay.
Natural language generation
- OpenCCG - OpenCCG library for parsing and realization with CCG. Includes mini-grammars for Inuit, Nezperce, Basque and others.
Computing systems
- Common Language Resources and Technology Infrastructure Norway / Clarino - One of their projects (not clearly listed here) is about providing an online system for language analysis, so users can connect resources visually, dump in text, and get a result. Kind of like the Yahoo! Pipes but for language processing. Uses the ABEL cluster.
Android Applications
- Aikuma - Android software for recording and translation.
- Android Speech Recognition Trainer - Speech recognition training app for low resource languages which interfaces with FieldDB corpora.
- android-template - This is a template of an Android word-learning app that may be used a way to introduce a language. It includes a quiz. For the documentation, go to http://eddersko.github.io/android-template/.
- AndroidFieldDB - An Android app which lets the user build a custom visual and auditory vocabulary, useful for guided anomia treatment and self designed language lessons by heritage speakers.
- AndroidFieldDBElicitationRecorder - A general purpose video recording tool.
- AndroidLanguageLessons - Lets heritage speakers create self designed language lessons.
- AndroidProductionExperiment - Android App to run perception experiments.
- Bevara - Android Phone Application designed for Linguistic Fieldwork to help preserve, maintain, and save endangered languages.
- ojoVoz - A mobile app for sending georeferenced image and voice recordings from an Adroid phone to an email address. For more information, please go to http://sautiyawakulima.net/ojovoz/.
- pocketsphinx-android - pocketsphinx build for Android.
- pocketsphinx-android-demo
Chrome Extensions
- babelfrog - Chrome extension to help learn languages as you browse.
- DictionaryChromeExtension - Dictionary for websites in low-resource languages. App and codebase which connects to a Wiktionary to provide definitions of any term on any website (current languages Cherokee 194,426 entries, Inuktitut 251 entries, Kartuli 7,363 entries, Plains Cree (incubation) 0 entries) use.
FieldDB
FieldDB is actively worked on by the FieldDB (Formally known as OpenSourceFieldlinguistics) group. These repos explicitly work with it but could be repurposed for other projects.
- FieldDB - An offline/online field database which adapts to its user's terminology and I-Language, has plugins for various data automation routines along the process of primary data collection to cleaning to publication and archival. menggunakan.
FieldDB Webservices/Components/Plugins
- AndroidLanguageLearningClientForFieldDB-sikuli - Sikuli tests for AndroidLanguageLearningClientForFieldDB.
- AuthenticationWebService - A node.js web service which mananges users and corpora creation and authentication.
- bower-fielddb-angular - A bower repository which hosts fielddb-angular components, bower install fielddb-angular --save.
- bower-fielddb - A bower repository which hosts fielddb core components, bower install fielddb --save.
- fielddb-spreadsheet-sikuli - sikuli tests for the spreadsheet module use.
- FieldDBActivityFeed - A fielddb activity feed widget which can be embedded in other codebases, websites etc use.
- FieldDBGlosser - A semi-unsupervised language independent morphological analyzer useful for stemming unknown language text, or getting a rough estimate of possible parses for morphemes in a word. bower install fielddb-glosser --save.
- FieldDBLexicon - A lexicon browser/editor web widget for FieldDB databases.
- LanguageClassDashboard - App which provides a view of FieldDB corpora for language teachers use.
- LexiconWebService - A node.js ElasticSearch wrapper for indexing/training lexicons from corpora.
- LexiconWebServiceSample - A node.js web server which implements the fieldlinguist's lexicon API for the FieldDB project.
Academic Research Paper-Specific Repositories
- Gargantua - Fast Unsupervised Sentence Aligner described in "Improved unsupervised sentence alignment for symmetrical and asymmetrical parallel corpora", COLING 2010.
- ldc-kiy - Materials for: The experimental state of mind in elicitation: illustrations from tonal fieldwork. Dubmitted to Language Documentation & Conservation, How to study a tone language .
- Learning to map into a Univerisal POS tagset Yuan Zhang, Roi Reichart, Regina Barzilay and Amir Globerson
- low-resource-pos-tagging-2014 and low-resource-pos-tagging-2014 Published in: Learning a Part-of-Speech Tagger from Two Hours of Annotation. Dan Garrette and Jason Baldridge . In Proceedings of NAACL 2013. And in: Real-World Semi-Supervised Learning of POS-Taggers for Low-Resource Languages. Dan Garrette, Jason Mielens, and Jason Baldridge . In Proceedings of ACL 2013.
- orthotree - Linguistic family tree based on orthographic distance.
- type-supervised-tagging-2012emnlp This repository contains the code, scripts, and instructions needed to reproduce the results in the paper: Type-Supervised Hidden Markov Models for Part-of-Speech Tagging with Incomplete Tag Dictionaries. Dan Garrette and Jason Baldridge . In Proceedings of EMNLP 2012. This code is frozen as of the version used to obtain the results in the paper. It will not be maintained. To see the updated code, visit nlp
- visualizing-language - For visualizations of WALS and other typological databases.
- WALS-APiCS - Code for working with WALS-APiCS (Atlas of Pidgin and Creole Language Structures) complexity metrics.
Example Repositories
These are repositories that are generally only interesting for training purposes or seeing how something is done.
- CorpusWebService - über-simple node.js-Proxy to enable CORS request for couchdb.
- CorporaForFieldLinguistics - Small corpora from diverse language typologies, useful for testing scripts.
- startR
- lucenerevolution-2013 - Demo examples for linguistics in Lucene and Solr.
- berlin-buzzwords-2013 - Demo examples for Lucene, Solr, ElasticSearch and OpenNLP from Berlin Buzzwords 2013 talk.
Font
- fontinline - Make inline stroke paths from an outline font.
- Noto Fonts - Noto is Google's free font family that aims to support all the world's scripts. Its design goal is to achieve visual harmonization across languages. Noto fonts are under Apache License 2.0.
- Unicodify Unicodify is a suite of programs for converting text in a variety of 8-bit encodings to Unicode (using the UTF-16 encoding). Unicodify was particularly designed to handle HTML-based text using non-ISCII 8-bit fonts to render South Asian scripts. However, elements of the suite can map other types of non-ASCII 8-bit encodings, such as Latin-2, ISCII and PASCII.
Corpora
These corpora are useful for working with tools on endangered languages. Monolingual corpora that are more for archival efforts should most likely not be included here.
- bible-corpus - A multilingual parallel corpus created from translations of the Bible.
- poio-corpus - The Poio Corpus is a freely available collection of language resources for the lesser-used languages. The data is extracted from free sources like Wikipedia, dictionaries, documents, websites and others.
Organizations
On GitHub
- batumi - Speech recognition and natural language processing for low-resource languages
- BloomBooks
- unicode-cldr - Unicode Common Locale Data Repository (CLDR) Project http://cldr.unicode.org
- cmusphinx - Mirror of the SourceForge repositories
- dativebase - Tools for working with OLD.
- divvun - The Divvun group at UiT develops proofing tools, keyboard apps and other language technology solutions for indigenous and minority languages, especially the Sámi languages. Situs web.
- FieldDB
- GiellaLT - home for keyboard layouts, lexicons and morphologies for indigenous and minority languages, especially for morphologically complex languages, using mainly rule-based techonlogies. The resources are used by Divvun (above) and Giellatekno (below) to build a number of tools for the language communities. Almost everything is open source.
- HFST - Helsinki Finite-State Technology. Situs web.
- hunspell
- keymanapp - Website.
- langtech - Language Technology Group, University of Melbourne
- lex4all
- longnow
- MontrealCorpusTools
- moses-smt - Statistical Machine Translation.
- mukurtucms
- NLTK - Natural Language Toolkit.
- PhonologicalCorpusTools)
- Projet de recherche sur l'écriture - Crowdsourcing or conducting large scale psycholinguistics experiments (or statistically significant field linguistics).
- prosodylab - Prosodylab at McGill University, Canada
- SIL International (Dev) SIL International- Another SIL organization, with many repositories.
- SIL International - SIL (originally known as the Summer Institute of Linguistics, Inc.) is probably the leading organization which provides software and tools tailored for use by field linguists and lexicographers working on endangered languages. A little known fact is that much of it's code is open sourced on GitHub and SIL is happy to recieve open source contributions and collaborate on open source projects.
- SIL NRSI - SIL Non-Roman Script Initiative. The NRSI is a department of SIL International, whose task is to provide assistance, research and development for SIL International and its partners to support the use of non-Roman and complex scripts in language development.
- StanfordNLP https://nlp.stanford.edu
- ucsd-field-lab - University of California, San Diego
- UniversalDependencies - Universal Dependencies (UD) is a project that is developing cross-linguistically consistent treebank annotation for many languages, with the goal of facilitating multilingual parser development, cross-lingual learning, and parsing research from a language typology perspective. The annotation scheme is based on an evolution of (universal) Stanford dependencies (de Marneffe et al., 2006, 2008, 2014), Google universal part-of-speech tags (Petrov et al., 2012), and the Interset interlingua for morphosyntactic tagsets (Zeman, 2008). The general philosophy is to provide a universal inventory of categories and guidelines to facilitate consistent annotation of similar constructions across languages, while allowing language-specific extensions when necessary.
- utcompling - The University of Texas at Austin's Computational Linguistics Lab. Situs web.
Other OSS Organizations
- Giellatekno - Giellatekno combines cutting-edge linguistic and computational research into the analysis of Saami and other morphologically-rich languages, with the development of practical applications. We focus on deep linguistic modeling and on highly efficient and robust computational analysis with a wide empirical coverage. They use svn for their code: all of it can be found here, sorted by language.
- LOWLANDS - LOWLANDS – Parsing low-resource languages and domains https://ccc.ku.dk/research/lowlands/
- LTRC: Language Technologies Research Center IIIT Hyderabad LTRC addresses the complex problem of understanding and processing natural languages in both speech and text mode. LTRC conducts research on both basic and applied aspects of language technology. It is the largest academic centre of speech and language technology in South Asia. LTRC carries out its work through four labs, which work in synergy with each other, as listed above.
- The Language Archive Part of the MPI
Tutorial
- How to Write a Spelling Corrector by Peter Norvig.
Language Specific Projects
For each language, we include the ISO 639-3 code, and the main autonym for that language.
Afrikanas
afr :: Afrikaans
- Afrikaanse rekenaarlinguïstiek (Afrikaans computational linguistics) — wordlists, corpora, morphological analyser, tagger, word decompounder. Available upon email.
bahasa Albania
sqi :: shqip
- Apertium rules for Albanian - Machine Translation rules
- out-of-copyright-albanian-authors - authors scraped from the albanian language wikipedia who are out of copyright.
- Plis keyboard - The Plis keyboard is a keyboard or computer keyboard layout for the Albanian language.
- spell checking - Here you find a collection of Albanian words and information about them. Aspell, Ispell, and MySpell are included.
Alutiiq
ems :: sugpiaq
- wiinaq - Word Wiinaq is a Kodiak Alutiiq dictionary web application with automatically generated ending tables and souped-up search capabilities. It is written in Python using Django.
Amharik
amh :: አማርኛ
- HornMorpho - Morphological analysis and generation of Amharic and Oromo verbs and nouns and Tigrinya verbs
Basque
eus :: euskara
- Matxin - An open-source transfer machine translation engine. Linguistic information for the translation from Spanish and Basque (es-eu) is included.
Benggala
ben :: বাংলা
- Bangla-অঙ্কুর for Mac This project aims to develop a phonetic based Bangla typing system for Macintosh computer which can be developed into a transliteration technique in the future.
- Bengali Writer - `Bengali Writer' is a set of utilities for computerized editing and typesetting in Bengali, a language of India and Bangladesh. It comprises a set of fonts for Bengali in several formats (METAFONT, BDF, PS), a text editor with spell-cheking, export, and more. (Original project is on SourceForge: https://sourceforge.net/projects/bengaliwriter/).
- Ekushey Bangla Computing and Localization Project for the Bangla speaking people.
- Lekho - A collection of tools and resources for using bangla on computers (Original project is on SourceForge: https://sourceforge.net/projects/lekho/).
Chichewa
nya :: chicheŵa
- Chichewa - NLP resources for Chichewa.
Galicia
glg :: galego
- an-metri-gal - Análise métrico de texto en verso en lingua galega (Galician language) gl-ES
- android_gl_dict - Android Galician (gl_ES) Keyboard Dictionary
- aspell-gl - Galician dictionary for aspell
- CitiusSentiment - Sentiment analysis (opinion mining) for Portuguese, English, Spanish, and Galician
- CitiusTagger - A PoS-Tagger and Named Entity Classification tool for Portuguese, English, Galician, and Spanish
- Conshuga - Galician verb conjugator
- corpora - This is a collection of corpus of Galician (or related to Galicia) words / Colección de corpus de palabras en galego (ou relacionadas con Galicia)
- DepPattern - Dependency Syntactic Parsing for Portuguese, Spanish, English, and Galician, including MetaRomance parser
- DOGA_scraper - Galician Official journal scraper
- elFinder-language - Galician - Gallego / language for elFinder
- EuroWordNetLemon - EuroWordNet lemon lexicons generated from the LMF versions of the Multilingual Central Repository (MCR) EuroWordNet lexicons. It includes lexicons for Spanish, Catalan, Basque & Galician.
- GalegoDroid - Galician Translator for Android
- galeXtra - Multiword Extractor for Portuguese, English, Spanish, Galician, French
- Galician-Dependency-Treebank - This Galician Dependency Treebank has been developed by transliterating and adapting lexically the Portuguese part (Bosque 7.3 by the Floresta sintá(c)tica project) of the CONLL-X 2006.
- Galician-Fuzzy-Text-watch - Based on Fuzzy Text International by Jesse Hallett, uses the galician language to display time.
- galician-locale-for-mac - Galician locale for Mac OS X
- gl-syllabler - Split galician language words into syllables
- gl- Galician OmegaT Localisation
- hunspell-gl-ciencias - Project oriented into developing a science and maths Galician language Hunspell dictionary
- hunspell-gl - Galician hunspell dictionaries
- hyphen-gl - Galician hyphenation rules
- javagalician-java6 - The Java Galician Locale is an implementation of Java localization SPIs which will allow the Java VM to use the Galician Language (locales "gl" and "gl_ES"), one of the official languages of Spain, which is not included in Sun's JVM distribution.
- Linguakit - Multilingual toolkit for NLP: dependency parser, PoS tagger, NERC, multiword extractor, sentiment analysis, etc.
- ParlamentoGalicia - Project based on the information extracted from the transcriptions of the sessions held in the Galician Parlament
- poss-gl - Galician translation of Producing Open Source Software, by Karl Fogel
- rima - Find rhyming words in galician language.
- stopwords-gl - Galician stopwords collection
- texlive-babel-galician - TeXLive babel-galician package
- UD_Galician-CTG - The Galician UD treebank is based on the automatic parsing of the Galician Technical Corpus created at the University of Vigo by the the TALG NLP research group.
- UD_Galician-TreeGal - The Galician-TreeGal is a treebank for Galician developed at LyS Group (Universidade da Coruña).
- UL_Galician-TreeGal - CoNLL-UL Repository for UD_Galician-TreeGal
Apertium
- apertium-cat-glg - Apertium translation pair for Catalan and Galician
- apertium-dict-en-gl - English-Galician language pair for Apertium
- apertium-dict-es-gl - Spanish-Galician language pair for Apertium
- apertium-dict-pt-gl - Portuguese-Galician language pair for Apertium
- apertium-en-gl - Apertium translation pair for English and Galician
- apertium-es-gl - Apertium translation pair for Spanish and Galician
- apertium-glg - Apertium linguistic data for Galician
- Apertium-pt-gl.pt-gl-LMF - This is the LMF version of the Apertium bilingual ditionary for Portugues and Galician languages
- apertium-pt-gl - Apertium translation pair for Portuguese and Galician
Georgia
kat :: ქართული
- awesome-georgia - A curated list of awesome libraries and packages specific/related to Georgia (country).
- Gadatsqvetilebebi - გადაწყვეტილებები; Web spider and corpora importer for public legal decisions.
- GeoWordsDatabase - Around 310 000 unique Georgian words https://bumbeishvili.github.io/GeoWordsDatabase/.
- Kartuli Speech Recognition - ანდროიდის ქართველი მომხმარებლებისთვის სიტყვის ამოცნობის სისტემის შექმნა. Codebase to turn any webpage from any alphabet into another alphabet, the default is to turn latin letters into Kartuli. use "Do your friends keep commenting on Facebook with English keyboards (either because they forgot to switch, or because they didn't/can't install a Georgian keyboard)? Now you can read the web through კართული eyes.".
- KartuliChromeExtension - Chrome აპლიკაცია, რომელიც ყველა ინგლისურ ასო-ბგერას აჩვენებს ქართულ ასო-ბგერად.
- QartuliDaBunebismetkveleba - მათემატიკისა და ბუნებისმეტყველების ინტერაქტიული სახელმძღვანელო მე-2 - მე-3 კლასის მოსწავლეებისათვის.
- SakartvelosUzenaesiSasamartloSarke - საქართველოს უზენაესი სასამართლო სარკე.
- SamartlosSakonstitutsioSasamartdoSarke - სამართლოს საკონსტიტუციო სასამართდო სარკე.
- translitit-latin-to-mkhedruli-georgian - A Latin to ქართული (Mkhedruli Georgian) transliteration function written in JavaScript.
- translitit-mkhedruli-georgian-to-ipa - A Latin to ქართული (Mkhedruli Georgian) transliteration function written in JavaScript.
- Declensions - Methods to generate declensions for Georgian language
Font
- Stichoza/font-larisome - Iconic font for Georgian currency inspired by Font-Awesome (CSS).
- Lotuashvili/BPGNateli - Bower package for BPG Nateli font (CSS).
- thecotne/georgian-webfonts - Package for georgian fonts (CSS).
Internationalization and Localization (i18n/l10n)
- Stichoza/money-num-to-string - Convert a number/money to localized string (PHP, JavaScript).
- natchkebiailia/NumberToWord - Convert numbers to localized strings (JavaScript).
- d0ragon/number-to-words-ka - Convert numbers to localized strings (PHP).
- dimakura/ka - Common functionality for georgian projects (Ruby).
- dimakura/ka.js - Georgian language support for node and browser (JavaScript).
- akalongman/kautilities - Convert Georgian letters to Latin and vice-versa (PHP).
- Landish/Laravel-Ka - Laravel Georgian Language Pack.
- Landish/RedactorJS-GE - Redactor WYSIWYG HTML Editor Georgian Language Pack (JavaScript).
- wenzhixin/bootstrap-table - Bootstrap table with extra features. l10n by @Lotuashvili and @Stichoza.
- moment/moment - A lightweight date library (JavaScript).
- ioseb/geokbd - Georgian keyboard library (JavaScript).
Guarani
grn :: Guarani
- ParaMorfo - morphological analysis and generation of Spanish and Guarani verbs, nouns, and adjectives.
Hausa
hau :: هَرْشَن هَوْسَ
- Hausa - Repository for Hausa NLP tools.
Hindi
hin :: हिन्दी
- hindi-morph - An open source morphological analyzer for Hindi.
Høgnorsk
nno :: Høgnorsk
- hunspell-hn_NO - A beginning to a spellchecking tool for Høgnorsk, a conservative variant of Norwegian Nynorsk, based on a set of corpuses.
Islandia
isl :: íslenska
- IceNLP - IceNLP is an open source Natural Language Processing (NLP) toolkit for analyzing and processing Icelandic text. The toolkit is implemented in Java.
Inuktitut
iku :: Inuktitut
- InuktitutAlignerData - Scripts for alignment of laboratory speech production data.
- InuktitutComputing - Inuktitut Morphological Analyser, transcoder, transliterator, corpus tools, and lexical lists for working with Inuktitut. Usable online at http://inuktitutcomputing.ca/index.php.
Irlandia
gle :: Gaeilge
- aimsigh - Source for the now-defunct aimsigh.com Irish search engine.
- caighdean - Code for standardizing Irish language text.
- fleiscin - Irish hyphenation patterns for TeX https://cadhan.com/fleiscin/.
- GaelSpell - Sources for an Irish language spell checker.
- tesseract-gle-uncial - OCR for old Irish fonts.
Kinyarwanda
kin :: Ikinyarwanda
- kin-morph-fst - Kinyarwanda morphological analyzer.
- TurboTagger & TurboParser for Kinyarwanda (download) TurboTagger & TurboParser for Kinyarwanda
Kurdi
kur :: Kurdî
- Kurlex - Morphological analyser and lexicon, written in the Alexina framework, licensed under the LGPL-LR.
- kurmanji-stemmer - NLTK based kurmanji stemmer
Lingala
lin :: Lingála
- Lingala NLP NLP tools and resources for Lingala
Lushootseed
lut :: Lushootseed
- Lushootseed - Joshua Crowgey's work on Lushootseed http://students.washington.edu/jcrowgey/lushootseed/.
Melayu
msa :: Bahasa Melayu
- MorfoMalayu - morphological analysis of Malay words.
Malagasi
mlg :: Malagasy
- Global Voices Malagasy Project This page provides a link to a corpus of parallel news articles in Malagasy and English from the Global Voices project. This corpus was collected and aligned at the sentence level by Victor Chahuneau.
Manx
glv :: Gaelg
- aspell-gv - Manx Gaelic dictionary for aspell.
- gaelg - NLP resources for Manx Gaelic, mainly in support of the gv2ga MT engine.
Migmaq
mic :: Mi'kmaq
- migmaq-lessons - Repository for website building Mi'gmaq language lessons.
Minderico
drc :: Piação do Ninhou
- fredericajordarzambarino - A web based game for mobile devices in minderico based in the "Who Wants to be a Millionaire" TV show.
Nishnaabe
oji :: Ojibwe, Oddawa, Chippewa, Anishinaabemowin, ᐊᓂᔑᓈᐯᒧᐎᓐ
- Ojibway-iphone-app - An iPhone app with audio and images for learning the Ojibway language.
- OjibwayMap - An iPhone app with audio and images for learning Ojibway language and culture.
- nishanimate - A desktop app to facilitate Nishnaabe-language acquisition via animations produced by the natural language processing of audio-accompanied text.
Oromo
orm :: Oromo
- hornmorpho - morphological analysis and generation of amharic and oromo verbs and nouns. and tigrinya verbs
Quechua
que :: Runa Simi
- AntiMorfo - morphological analysis and generation of Quechua nouns, adjectives, and verbs and Spanish verbs.
- Morphology, spellchecker - XFST and FOMA, plus OpenOffice plugin.
Sami
sma :: Sámi/Saami
- divvun-webdemo - simple webdemo for divvun grammar checker. Situs web.
- Giellatekno A host of Sámi tools.
- Mobile keyboards (iOS and Android), learning apps, dictionaries, morphologies, syntax disambiguators, some amount of project collaboration with Apertium on shallow translation between Saami languages, and
- Oahpa! - A learning portal for Saami languages. Includes WordPress based, media rich lesson-based learning, and morphological and syntactic exercizes generated from the morphological and syntactic tools
- Neahttadigisánit - A morphologically sensitive dictionary, with modes for 'social media input' (which allows users to type a 'relaxed' version of the orthography ( acdnstz will be recognized also as áčđŋšŧz̄ ), and also includes a JavaScript bookmarklet to offer click-to-read dictionary lookup functionality. Also available for other Uralic, and non-Uralic languages. Giellatekno does a lot for other minority Uralic languages. Following are some keywords for CTRL+F friendliness:
- Saami languages: North Saami, Lule Saami, South Saami // Inari Saami, Kildin Saami, Pite Saami, Skolt Saami.
- Other Uralic languages: Erzya, Finnish, Hill Mari, Ingrian, Khanty, Kven, Komi, Livonian, Meadow Mari, Moksha, Nenets, Nganasan, Olonetsian, Udmurt, Veps.
- Other languages: Buriat, Cornish, Faroese, Greenlandic, Iñupiaq, Northern Haida, Ojibwe, Plains Cree, Russian.
Gaelik Skotlandia
gla :: Gàidhlig
- aspell-gd - Scottish Gaelic dictionary for aspell.
- briathrachan - This is the source code to Briathrachan, a Gaelic-English dictionary app for iOS.
- gaidhlig - NLP resources for Scottish Gaelic, mainly in support of gd2ga/ga2gd MT engines.
- gd-fcfg - Context-free feature-based grammar of Scottish Gaelic in the NLTK format.
- gdbank - Some tools and resources for natural language processing of Scottish Gaelic. https://www.tantallon.org.uk/cggblog/.
- hunspell-gd - Files for building Scottish Gaelic spell checkers.
Secwepemctsín
shs :: Secwepemctsín
- secwepemctsnem - A project to help people learn Secwepemctsín.
Somalia
som :: Soomaaliga
- somorph - Somali morphological and syntactic analyzers and generators built on XFST and VISL-CG Constraint Grammar. Up to date version checked in on Giellatekno's repository.
- qaamuus.net morphologically aware dictionary based on lexical resources found online, and the somali morphology.
Tigrinya
tir :: ትግርኛ
- HornMorpho - morphological analysis and generation of Amharic and Oromo verbs and nouns and Tigrinya verbs.
Uralic
urj :: Uralic languages
- UralicNLP - A Python library for processing Uralic languages (Finnish, Skolt Sami, Erzya, Moksha, Komi-Zyrian and so on). The library provides an easy programmatic access to Giellatekno resources such as FST morphology and CG disambiguators. Other functionalities include UD parser, API for the Online Dictionary of Uralic Languages and interface to SemFi and SemUr semantic databases. The library is under active development and new features are added from time to time.
Zulu
zul :: zulu
- Ukwabelana An open-source morphological Zulu corpus
Lisensi
© Richard Littauer 2014-2017