ภาษาทรัพยากรต่ำ
ทรัพยากรเพื่อการอนุรักษ์การพัฒนาและเอกสารของภาษาทรัพยากรต่ำ (มนุษย์)
จากการประมาณการบางอย่างพบว่าครึ่งหนึ่งของภาษาที่พูดในปัจจุบัน 7,000 ~ คาดว่าจะสูญพันธุ์ในศตวรรษนี้ อย่างไรก็ตามมีการทำงานจำนวนมากโดยนักวิชาการนักวิชาการอิสระองค์กรชุมชนและบุคคลที่ไปสู่การหยุดหรือชะลอแนวโน้มนี้ รายการนี้มีวัตถุประสงค์เพื่อให้รายการรหัสโอเพนซอร์สที่จะเป็นประโยชน์สำหรับการจัดทำเอกสารการอนุรักษ์การพัฒนาการรักษาหรือการทำงานกับภาษาใกล้สูญพันธุ์
กลุ่มหย่อน
เรามีกลุ่มหย่อนสำหรับการสนทนาสด เข้าร่วมกับเราที่นี่!
สิ่งพิมพ์
กระดาษสีขาวที่อธิบายถึงที่เก็บนี้ได้รับการตีพิมพ์ที่ LREC 2016 CCURL Workshop (การทำงานร่วมกันและการคำนวณสำหรับภาษาที่ไม่ได้รับทรัพยากร) กระดาษอยู่ในที่เก็บนี้ในโฟลเดอร์ papers ดาวน์โหลดกระดาษดิบที่นี่: โอเพนซอร์สรหัสที่ให้บริการภาษาใกล้สูญพันธุ์
มีส่วนช่วย
หากต้องการแก้ไขรายการนี้ใน GitHub เพียงคลิกที่นี่ หากคุณต้องการหารือเกี่ยวกับสิ่งใด ๆ ที่เกี่ยวข้องกับเรื่องนี้โปรดเปิดปัญหา หากคุณรู้ว่ามีทรัพยากรใด ๆ ที่ไม่ได้อยู่ในรายการนี้โปรดเพิ่มไม่ว่าจะใช้ลิงก์ด้านบนหรือโดยการส่งคำขอดึง
มีรายละเอียดเพิ่มเติมเกี่ยวกับการมีส่วนร่วมในคู่มือการสนับสนุน
หากคุณสนใจที่จะพูดคุยเกี่ยวกับรายการในความสามารถออฟไลน์ให้ติดต่อกับ @RichardLitt ฉันมีความสุขมากกว่าที่จะมีโทรศัพท์หรือแลกเปลี่ยนอีเมล
สารบัญ
สารบัญ ที่สร้างขึ้นด้วย Doctoc
- คำจำกัดความ
- ที่เก็บสามัญ
- โครงการพจนานุกรมภาษาเดียวและสาธารณูปโภค
- ซอฟต์แวร์
- ผู้ช่วยการกำหนดค่าเค้าโครงแป้นพิมพ์
- คำอธิบายประกอบ
- ข้อกำหนดรูปแบบ
- ที่เก็บที่เกี่ยวข้องกับ i18n
- ระบบเสียงอัตโนมัติ
- ข้อความเป็นคำพูด (TTS)
- การรู้จำเสียงพูดอัตโนมัติ (ASR)
- ข้อความอัตโนมัติ
- การทดลอง
- ใบพัด
- การสร้างภาษาธรรมชาติ
- ระบบคอมพิวเตอร์
- แอปพลิเคชัน Android
- ส่วนขยายของโครเมี่ยม
- FieldDB
- FieldDB WebServices/ส่วนประกอบ/ปลั๊กอิน
- ที่เก็บกระดาษงานวิจัยเชิงวิชาการเฉพาะ
- ตัวอย่างที่เก็บ
- แบบอักษร
- บริษัท
- องค์กร
- บน gitHub
- องค์กร OSS อื่น ๆ
- บทเรียน
- โครงการเฉพาะภาษา
- ชาวแอฟริกัน
- ชาวแอลเบเนีย
- Alutiiq
- อัมฮาริก
- เกี่ยวกับบาสก์
- เบงกอล
- ชิชวะ
- กาลิเซีย
- ชาวจอร์เจีย
- แบบอักษร
- ความเป็นสากลและการแปล (I18N/L10N)
- Guarani
- เฮาซา
- ภาษาฮินดี
- Høgnorsk
- เกี่ยวกับไอซ์แลนด์
- inuktitut
- เกี่ยวกับไอริช
- Kinyarwanda
- ชาวเคิร์ด
- Lingala
- Lushootseed
- มลายู
- มาลากาเซ
- Manx
- Migmaq
- Minderico
- ชาวนิชนาเบะ
- oromo
- คนขี้ขลาด
- เซมิ
- ชาวสก็อตเกลิค
- secwepemctsín
- โซมาเลีย
- Tigrinya
- uralic
- ซูลู
- ใบอนุญาต
คำจำกัดความ
ภาษาที่ใกล้สูญพันธุ์ เป็นภาษามนุษย์ที่ตกอยู่ในอันตรายจากการสูญพันธุ์ รายการนี้ยังครอบคลุมภาษาชนกลุ่มน้อย - ภาษาที่พูดโดยประชากรที่มีความมั่นคง แต่มีขนาดเล็ก (ตัวอย่างเช่น Maltese หรือ Hawai'ian); และภาษาที่มีทรัพยากรต่ำหรือต่ำกว่าซึ่งอาจมีการพูดโดยประชากรจำนวนมาก แต่อยู่ภายใต้การแสดงแบบดิจิทัล (เช่น Quechua) ภาษาเหล่านี้มีลักษณะบางอย่างที่เหมือนกัน ข้อมูลที่เกี่ยวข้องมากที่สุดคือข้อมูลที่กระจัดกระจายและการขาดทรัพยากรตั้งแต่ผู้ตรวจสอบการสะกดไปจนถึงไวยากรณ์ไปจนถึงการแปลของเครื่องจักร ภาษาที่ไม่ได้รับทรัพยากรอื่น ๆ ที่ไม่ได้อยู่ภายใต้รายการนี้รวมถึงภาษาที่สร้างขึ้น (ตัวอย่างเช่น Klingon หรือ Na'vi), ภาษาคอมพิวเตอร์ (ตัวอย่างเช่น JavaScript หรือ Lua) และภาษาที่สูญพันธุ์ที่กระจัดกระจาย
โอเพ่นซอร์ส "ส่งเสริมการเข้าถึงสากลผ่านใบอนุญาตฟรีสำหรับการออกแบบหรือพิมพ์เขียวของผลิตภัณฑ์และการแจกจ่ายซ้ำสากลของการออกแบบหรือพิมพ์เขียวนั้นรวมถึงการปรับปรุงที่ตามมาโดยทุกคน" (วิกิ) สิ่งนี้มีความสำคัญเนื่องจากเงินและทรัพยากรที่จัดสรรให้กับภาษาหรือโครงการที่ไม่ได้ใช้โอเพนซอร์สจะใช้ค่าใช้จ่ายในการขยายความเป็นไปได้ที่อื่น
รายการนี้เคยมีชื่อว่าเป็น endangered-languages มันถูกเปลี่ยนชื่อเพื่อสะท้อนให้เห็นว่าการเสี่ยงภัยเป็นคำที่โหลดซึ่งทั้งคู่อาจไม่สะท้อนมุมมองของชุมชนภาษาที่พูดภาษาชนกลุ่มน้อย low-resource-languages มุ่งเน้นรายการนี้ในการขาดทรัพยากรดิจิทัลเมื่อเทียบกับภาษาอื่น ๆ ที่มีทรัพยากรสูง
เครื่องมือที่สร้างขึ้นสำหรับภาษาเหล่านี้จะไม่รวมอยู่ (เว้นแต่เกี่ยวข้องกับภาษาถิ่นหรือสายพันธุ์): ภาษาอาหรับ, บัลแกเรีย, คาตาลัน, จีน, โครเอเชีย, เช็ก, เดนมาร์ก, ดัตช์, อังกฤษ, เอสโตเนีย, ฟินแลนด์, เฟลเยอร์ (Bokmål), เปอร์เซีย, โปแลนด์, โปรตุเกส, โรมาเนีย, รัสเซีย, เซอร์เบีย, สโลวัก, สโลวีเนีย, สเปน, สวีเดน, ไทย, ตุรกี, ยูเครน, วาเลนเซีย, เวียดนาม รายการนี้มาจากรายการภาษาเนื้อหาที่ได้รับความนิยมมากที่สุดสำหรับเว็บไซต์ในหน้า Wikipedia นี้ ตัวชี้วัดอื่น ๆ สามารถใช้ - ถ้าคุณมีอีกอันโปรดแนะนำ!
รายการนี้ดีมากโดยเฉพาะอย่างยิ่ง แสดงประเภทของเครื่องมือที่มีอยู่ในสนามโดยทั่วไป อย่างไรก็ตามสำหรับการวิจัยเชิงลึกในภาษาหรือชุดเครื่องมือเฉพาะมันไม่ทำงานได้ดีเป็นพิเศษ ตัวอย่างเช่นการแสดงรายการแพ็คภาษา Firefox ทั้งหมดหรือโมดูลภาษา Apertium สำหรับแต่ละภาษาทรัพยากรต่ำจะไม่ช่วยเหลือเช่นเดียวกับเครื่องมือทั้งหมดที่มีให้สำหรับ Basque ที่ระบุไว้ใน ACL Wiki ซึ่งส่วนใหญ่หมายถึงเครื่องมือการจัดทำรายการผ่านกลุ่ม IXA ให้ดูรายการนี้เป็นจุดเริ่มต้นสำหรับการวิจัยเพิ่มเติม
กำลังมองหาแหล่งข้อมูลสำหรับภาษารหัสหรือไม่? ลองดูคอลเลกชันรายการที่ยอดเยี่ยม
ที่เก็บสามัญ
โครงการพจนานุกรมภาษาเดียวและสาธารณูปโภค
ระบบสาธารณูปโภค
- โครงการสำหรับพจนานุกรมอิเล็กทรอนิกส์ฟรีเป็นโครงการสำหรับ Java Midlet สำหรับโทรศัพท์มือถือ - สำหรับพจนานุกรมภาษาพื้นเมือง
- เว็บไซต์ Webonary ซึ่งโฮสต์พจนานุกรมดิจิตอลสำหรับภาษาเดี่ยว
- Wesay - อนุญาตให้ชุมชนภาษาสร้างพจนานุกรมของตนเอง https://software.sil.org/wesay/ (โดย SIL International)
ซอฟต์แวร์
- 4lang - พจนานุกรมแนวคิดโดยใช้เครื่อง Eilenberg
- Accentuate.us aka "Charlifter" สถิติแบบแยกส่วนของข้อความธรรมดาสำหรับหลายภาษา
- การจัดตำแหน่ง-เปิด-เปิด-นี่คือการใช้งานกรอบ CRF autoencoder สำหรับสี่งาน: การจัดตำแหน่งคำ bitext, การติดแท็กส่วนหนึ่งของคำพูด, การสลับรหัส, การแยกวิเคราะห์การพึ่งพา
- Apertium Apertium เป็นกล่องเครื่องมือในการสร้างระบบการแปลเครื่องถ่ายโอนโอเพนซอร์ซโอเพนซอร์ซโดยเฉพาะอย่างยิ่งเหมาะสำหรับคู่ภาษาที่เกี่ยวข้อง: รวมถึงเครื่องยนต์เครื่องมือบำรุงรักษาและข้อมูลภาษาศาสตร์แบบเปิดสำหรับคู่ภาษาหลายคู่
- ARK-TWEET-NLP-CMU ARK Twitter Twitter ส่วนหนึ่งของคำพูด Tagger ( Fork )
- Artofreading - สคริปต์ดัชนีและการประมวลผลที่เกี่ยวข้องกับคอลเลกชัน Art of Reading Illustration
- Bayesline - การจำแนกประเภทเบย์พหุนามสำหรับการระบุภาษา
- คัมภีร์ไบเบิล -Corpus-Tools-ชุดเครื่องมือสำหรับการอ่าน/ประมวลผลคลังพระคัมภีร์หลายภาษา
- Bloomdesktop - Bloom Desktop เป็นแอพพลิเคชั่น Windows Hybrid C#/JavaScript/HTML/CSS ที่ "ลดบาร์" อย่างมากสำหรับชุมชนภาษาที่ต้องการหนังสือในภาษาของตนเอง Bloom มอบระบบการฝึกอบรมที่มีการฝึกอบรมต่ำซึ่งมีผู้พูดภาษาแม่และผู้สนับสนุนของพวกเขาทำงานร่วมกันเพื่อส่งเสริมการประพันธ์ชุมชนและการเข้าถึงวัสดุภายนอก ... https://bloomlibrary.org/
- Bloomlibrary - แอพหน้า Library Bloom โดยใช้ AngularJs & Bootstrap, Backend Parse.com https://bloomlibrary.org/
- สมอง - เครือข่ายประสาทใน JavaScript
- เครื่องมือทางสัณฐานวิทยาของ Bristol Uni Mt - repo นี้เป็นกระจกของสคริปต์ที่มีอยู่ก่อนหน้านี้ใน http://www.cs.bris.ac.uk/research/machinelearning/morphology/resources.jsp รวมถึง: Ukwabelana - คลังแสงซูลูโอเพนซอร์สโอเพ่นซอร์สและเอ็มม่า: ตัวชี้วัดการประเมินใหม่สำหรับการวิเคราะห์ทางสัณฐานวิทยา
- บราวน์คลัสเตอร์ - การใช้งานอัลกอริทึมการจัดกลุ่มคำสีน้ำตาล
- CasualConconc เป็นโปรแกรมที่สอดคล้องกันที่ทำงานบน Mac OS X 10.5 Leopard หรือใหม่กว่า เดิมทีมันถูกออกแบบมาเพื่อการใช้งานแบบไม่เป็นทางการ (การวิเคราะห์เบื้องต้นหรือวัตถุประสงค์ที่ไม่ใช่การวิจัย) แม้ว่า [ผู้ดูแล] ได้ใช้มันเพื่อการวิจัยของเขาเอง (และอาจมีคนอื่น ๆ ) มันสามารถสร้างเส้นความสอดคล้อง KWIC, กลุ่มคำ, การวิเคราะห์การจัดระเบียบและจำนวนคำ
- CDEC - ตัวถอดรหัส, การจัดตำแหน่งและโมเดลเครื่องมือเพิ่มประสิทธิภาพสำหรับการแปลเครื่องทางสถิติและแบบจำลองการทำนายที่มีโครงสร้างอื่น ๆ โดยอิงตามรูปแบบที่ปราศจากบริบท (ส่วนใหญ่)
- Charlint Charlint เป็นเครื่องมือการทำให้เป็นมาตรฐาน/การตรวจสอบตัวละครที่เขียนใน Perl ในหมู่อื่นมันใช้รูปแบบการทำให้เป็นมาตรฐาน C ของ Unicode TR 15 เป็นแพลตฟอร์มทดสอบสำหรับการทำให้เป็นมาตรฐานในชุดแรกในรูปแบบอักขระ W3C
- Chorus - ระบบควบคุมเวอร์ชันที่ออกแบบมาเพื่อเปิดใช้งานเวิร์กโฟลว์ที่เหมาะสมสำหรับทีมพัฒนาภาษาทั่วไปที่มีการกระจายทางภูมิศาสตร์
- หอย-แอปพลิเคชันการคำนวณภาษาศาสตร์ผู้ไกล่เกลี่ย-เปลี่ยนแอปพลิเคชัน NLP อย่างรวดเร็วให้กลายเป็นเว็บเซิร์ฟเวอร์ที่เต็มไปด้วยส่วนหน้าเว็บแอปพลิเคชัน คุณให้ข้อมูลจำเพาะของแอปพลิเคชันบรรทัดคำสั่งของคุณอินพุตเอาต์พุตและพารามิเตอร์และหอยล้อมรอบแอปพลิเคชันของคุณเพื่อสร้างเว็บเซิร์ฟเวอร์ที่เต็มเปี่ยม
- CMU SPHINX CMUSPHINX เป็นคำศัพท์คำศัพท์ขนาดใหญ่ที่ไม่ขึ้นกับลำโพงที่ไม่ขึ้นอยู่กับคำศัพท์ที่ได้รับการปล่อยตัวภายใต้ใบอนุญาตสไตล์ BSD นอกจากนี้ยังเป็นชุดของเครื่องมือและทรัพยากรโอเพ่นซอร์สที่ช่วยให้นักวิจัยและนักพัฒนาสามารถสร้างระบบการจดจำคำพูด
- CNMINLANGWEBCOLLECT - การตรวจจับภาษาชนกลุ่มน้อยจีนและการรวบรวมเว็บไซต์
- COG - COG เป็นเครื่องมือในการเปรียบเทียบภาษาโดยใช้ LexicOstatistics และเทคนิคภาษาศาสตร์เปรียบเทียบ สามารถใช้เพื่อทำให้กระบวนการเปรียบเทียบรายการคำต่าง ๆ เป็นไปโดยอัตโนมัติ http://sillsdev.github.io/cog/
- ConverTextract - แปลงไฟล์ Excel, Word และ PowerPoint ด้วยข้อความที่ไม่ใช่ Unicode (เช่นข้อความที่ต้องการแบบอักษร SIL) เป็น Unicode ในขณะที่รักษารูปแบบของไฟล์ต้นฉบับ
- Corpustools - phonological corpustools http://phonologicalcorpustools.github.io/corpustools/
- CTK-สร้างขึ้นรอบ ๆ เคอร์เนลการจัดตำแหน่งประโยคแชมเปญของ LDC ชุดเครื่องมือ Champollion (CTK) มีวัตถุประสงค์เพื่อให้เครื่องมือจัดตำแหน่งประโยคข้อความประโยคคู่ขนานพร้อมใช้งานสำหรับคู่ภาษามากที่สุดเท่าที่จะทำได้ (โครงการดั้งเดิมอยู่ใน SourceForge: http://champollion.sourceforge.net)
- DataTags - ระบบเพื่อประเมินความไวและความเสี่ยงด้านความเป็นส่วนตัวของชุดข้อมูลและกำหนดแท็กเพื่ออธิบายวิธีการถ่ายโอนและเข้าถึงชุดข้อมูล ( ส้อม ).
- Dataverse - กรอบที่เก็บข้อมูลเพื่อแบ่งปันและเผยแพร่ข้อมูลการวิจัย
- Dative - Dative: ซอฟต์แวร์สำหรับการทำงานภาคสนามทางภาษา http://www.dative.ca
- Dative - แอปพลิเคชันหน้าเดียวที่โต้ตอบกับฐานข้อมูลบริการเว็บฟิลด์ภาษาศาสตร์หลายแห่ง เว็บไซต์.
- Deeplearntoolbox - กล่องเครื่องมือ Matlab/octave สำหรับการเรียนรู้อย่างลึกซึ้ง รวมถึงอวนความเชื่อที่ลึก, autoencoders แบบซ้อน, อวนประสาท, convolutional autoencoders และตาข่ายประสาทวานิลลา แต่ละวิธีมีตัวอย่างเพื่อให้คุณเริ่มต้น
- Desmeme - ฐานข้อมูลและเครื่องมือสำหรับการสำรวจเทมเพลตภาษาศาสตร์
- DictDB - ฐานข้อมูลพจนานุกรมสำหรับการแปลภาษา
- วาทกรรม - เครื่องมือที่ใช้ Python เพื่อแปลงและผสานข้อมูลภาษาหลายชั้นหลายชั้น
- Divvun-Gramcheck-โปรแกรมนี้ทำการค้นหา FST ในรูปแบบที่ระบุเป็นการอ่านรูปแบบไวยากรณ์ข้อ จำกัด และค้นหาแท็กข้อผิดพลาดในไฟล์ XML ที่มีข้อความที่มนุษย์อ่านได้ มันมีความหมายที่จะใช้เป็นระยะปลายของท่อตรวจสอบไวยากรณ์
- Divvun -Keyboard - แอพแป้นพิมพ์สำหรับ iOS และ Android พร้อมเค้าโครงแป้นพิมพ์สำหรับภาษาพื้นเมืองและชนกลุ่มน้อย
- Divvunspell -
hfst-ospell (ด้านล่าง) เขียนใหม่ใน Rust สำหรับการทำงานร่วมกันและการจัดการหน่วยความจำที่แข็งแกร่ง ใช้งานได้จริงประมาณ 10 เท่าเร็วกว่า hfst-ospell มันใช้ไฟล์ ZHFST เดียวกับ hfst-ospell ซึ่งมีให้สำหรับทุกภาษาใน Giellalt GitHub org (ดูด้านล่าง) - DLTK - ชุดเครื่องมือภาษา Deutsch มากกว่า.
- Epitran - กราฟเป็นการแปลงฟอนิม (G2P) สำหรับภาษาที่มีทรัพยากรต่ำจำนวนมาก
- ผู้อาวุโส: ข้อมูลภาษาที่ใกล้สูญพันธุ์ที่เก็บอิเล็กทรอนิกส์-ข้อมูลภาษาที่ใกล้สูญพันธุ์ที่เก็บอิเล็กทรอนิกส์: เครื่องมือแคตตาล็อกข้อมูลภาษาศาสตร์ร่วมกันตามข้อกำหนดทางเว็บ
- Enchant - Enchant Spellchecking Library https://abiword.github.io/enchant/
- exsite9 - exsite9 เป็นแอพพลิเคชั่นเดสก์ท็อปที่สร้างขึ้นเพื่ออำนวยความสะดวกให้นักวิจัยได้อย่างง่ายดายและติดแท็กไฟล์ข้อมูลของพวกเขาอย่างรวดเร็วด้วยข้อมูลเมตาเชิงพรรณนาและต่อมาบรรจุไฟล์ข้อมูลและข้อมูลเมตาที่เกี่ยวข้องพร้อมสำหรับการส่งไปยังที่เก็บ Exsite9 ยังช่วยให้องค์กรโครงสร้างของไฟล์ดังกล่าวภายในการย้ายตำแหน่งทางกายภาพของพวกเขาบนที่เก็บไฟล์ในพื้นที่ของคุณ ช่วยให้คุณสามารถจัดระเบียบไฟล์และข้อมูลเมตาของคุณให้พร้อมสำหรับบรรจุภัณฑ์ได้อย่างถูกต้อง
- Fast_align - การจัดตำแหน่งคำที่ไม่ได้รับการดูแลอย่างรวดเร็ว
- FastText - ไลบรารีสำหรับการแสดงข้อความที่รวดเร็วและการจำแนกประเภท
- FieldWorks - FieldWorks เป็นชุดเครื่องมือซอฟต์แวร์สำหรับข้อมูลภาษาและวัฒนธรรมโดยสนับสนุนสคริปต์ที่ซับซ้อน https://software.sil.org/fieldworks/ Fieldworks Language Explorer (หรือ Flex, สั้น) ได้รับการออกแบบมาเพื่อช่วยนักภาษาศาสตร์ภาคสนามทำการจัดทำเอกสารและงานการวิเคราะห์ภาษาทั่วไปจำนวนมาก มันสามารถช่วยคุณ: ล้วงเอาข้อมูลและบันทึกข้อมูลคำศัพท์สร้างพจนานุกรมข้อความ interlinearize, วิเคราะห์คุณสมบัติวาทกรรม, สัณฐานวิทยาการศึกษา
- ฟรังก์ - การตรวจจับภาษาธรรมชาติ https://wooorm.com/franc/
- FWDocumentation - เอกสารนักพัฒนาสำหรับ FieldWorks (เครื่องมือซอฟต์แวร์สำหรับข้อมูลภาษาและวัฒนธรรมด้วยการสนับสนุนสคริปต์ที่ซับซ้อน)
- Fwlocalizations - การแปลสำหรับ FieldWorks
- FWSupportTools - เครื่องมือเพิ่มเติมสำหรับการพัฒนา FieldWorks
- Gaia - Gaia เป็น UI โทรศัพท์ที่ใช้ HTML5 สำหรับโครงการ Boot 2 Gecko หมายเหตุ: สำหรับรายละเอียดของสาขาที่ใช้สำหรับสิ่งที่เผยแพร่ดูวิกิ หากคุณสนใจที่จะตั้งค่าคีย์บอร์ดในภาษาใหม่ดูสิ่งนี้
- Giellakbd-Android-ส้อมละติน (โดย Google สำหรับ Android) โดยกำหนดเป้าหมายภาษาที่ด้อยลงซึ่งสมควรได้รับสถานะชั้นหนึ่งในระบบปฏิบัติการมือถือ ใช้โดย KBDGEN (ดูที่อื่นในหน้านี้)
- Giellakbd -Ios - การปรับแต่งโอเพ่นซอร์สใหม่ของคีย์บอร์ด iOS ดั้งเดิมของ Apple โดยมุ่งเน้นเฉพาะในการรองรับคีย์บอร์ดที่แปลเป็นภาษาท้องถิ่น ใช้โดย KBDGEN (ดูที่อื่นในหน้านี้)
- GIZA-PP-GIZA ++ เป็นชุดเครื่องมือแปลเครื่องทางสถิติที่ใช้ในการฝึกอบรม IBM รุ่น 1-5 และโมเดลการจัดตำแหน่งคำ HMM แพ็คเกจนี้ยังมีแหล่งที่มาสำหรับเครื่องมือ MKCLS ซึ่งสร้างคลาสคำที่จำเป็นสำหรับการฝึกอบรมแบบจำลองการจัดตำแหน่งบางอย่าง
- GV -Crawl - เสียงทั่วโลก Bitext Crawler สำหรับการสร้าง Corpora คู่ขนาน
- Glotlid - การระบุภาษา FastText พร้อมการสนับสนุนสำหรับป้ายกำกับมากกว่า 2,000 ป้าย
- ข้อมูล Glottolog - Glottolog ให้ข้อมูลอ้างอิงที่ครอบคลุมสำหรับภาษาของโลก
- Gramadóir - เครื่องมือตรวจสอบไวยากรณ์ที่ออกแบบมาเพื่อการพัฒนาอย่างรวดเร็วของหมากฮอสไวยากรณ์สำหรับภาษาชนกลุ่มน้อยและภาษาอื่น ๆ ที่มีทรัพยากรการคำนวณที่ จำกัด
- Grind - ปลั๊กอิน Indesign 5.5 ที่ออกแบบไว้อนุญาตให้ใช้แบบอักษรอัจฉริยะที่เปิดใช้งานกราไฟท์ใน Adobe Indesign โครงการนี้รวมเทคโนโลยี SMART FONT ของ SIL ของ SIL เข้ากับการใช้งานปลั๊กอินนักแต่งเพลงวรรคของเราเอง
- Hermitcrab-Hermitcrab.net เป็นตัวแยกวิเคราะห์ทางสัณฐานวิทยา/phonological ที่ยืดหยุ่นซึ่งใช้วิธีการและกระบวนการ
- HFST -OSPELL - HFST COCKER Checker Library และเครื่องมือบรรทัดคำสั่ง
- HFST-OSPELL-JS-การผูกโหนดสำหรับ HFST-OSPELL
- HFST-Optimized-Lookup-HFST Library Library และเครื่องมือบรรทัดคำสั่งที่ดีที่สุด HFST
- Hundict - สกัดพจนานุกรมสองภาษาจาก Corpora คู่ขนาน
- Hunspell - เครื่องตรวจสอบการสะกดและโปรแกรมวิเคราะห์ทางสัณฐานวิทยาและโปรแกรมที่ออกแบบมาสำหรับภาษาที่มีสัณฐานวิทยาที่หลากหลายและการผสมคำที่ซับซ้อนหรือการเข้ารหัสอักขระ
- Huntag - แท็กแบบต่อเนื่องสำหรับ NLP โดยใช้การเรียนรู้แบบเอนโทรปีสูงสุดและโมเดล Markov ที่ซ่อนอยู่
- ICU -DOTNET - C# wrapper สำหรับ ICU4C
- ICU4C - Mirror of SVN Project ที่ http://source.icu-project.org/repos/icu/icu/ สาขา FieldWorks มีการปรับปรุงเฉพาะด้าน FieldWorks
- Ilanguage - เครื่องวิเคราะห์ทางสัณฐานวิทยาแบบกึ่งอเนกประสงค์ที่ไม่ได้ใช้ภาษาที่มีประโยชน์สำหรับการสืบทอดข้อความภาษาที่ไม่รู้จักหรือได้รับการประเมินแบบคร่าวๆของการพาร์ทพาร์ทที่เป็นไปได้สำหรับ morphemes ในคำ อินพุต: คลังข้อมูล ใช้การบีบอัดเอนโทรปีสูงสุดและภาษาศาสตร์
- IPA -HELP - IPA ช่วย
- ITWEETS -GEODATA - GEODATA จากทวีตพื้นเมือง
- jQuery.ime - ไลบรารีวิธีการอินพุตตาม JQuery
- KBDGEN - สร้างคีย์บอร์ดและเค้าโครงแป้นพิมพ์สำหรับระบบปฏิบัติการต่างๆ
- KOREKSYON-เครื่องมือสำหรับการพัฒนาและใช้ความสามารถในการตรวจสอบการสะกดและการตรวจสอบไวยากรณ์ในภาษาที่มีทรัพยากรต่ำ
- l20n.js - L20N reinvents ซอฟต์แวร์โลคัลไลเซชั่น ผู้ใช้ควรจะได้รับประโยชน์จากพลังการแสดงออกทั้งหมดของภาษาธรรมชาติ L20N ทำให้สิ่งที่เรียบง่ายง่ายและในขณะเดียวกันก็ทำให้สิ่งที่ซับซ้อนเป็นไปได้ นี่คือการใช้งาน JavaScript ของ L20N http://l20n.org
- langid.py - ระบบการระบุภาษาแบบสแตนด์อโลน
- Langtech โฮสต์ของทรัพยากรที่ให้ไว้ใน SVN โดย University of Tromsø รายละเอียดอยู่ที่นี่และเป็นภาษาอังกฤษที่นี่
- LEGO Unified Concepticon - วัสดุที่เกี่ยวข้องกับแนวคิด Lego Unified
- Lex4all - Lexicons การออกเสียงสำหรับภาษาที่มีทรัพยากรต่ำ http://lex4all.github.io/lex4all/
- LexDB - LexDB เป็นฐานข้อมูลการติดตาม Cognate Lexical มันจัดเก็บที่มาเต็มรูปแบบของคำสั่งและการตัดสินของสายเลือดทั้งหมดและอนุญาตให้ส่งออกไปยังภาษา Nexus จำนวนมาก ฐานข้อมูลถูกเขียนในกรอบเว็บ Python/Django ที่ยืดหยุ่น
- lfmerge - ส่ง/รับสำหรับ languageforge.org
- Liblevenshtein - ห้องสมุดสำหรับสร้างทรานสดิวเซอร์สถานะ จำกัด ตาม Levenshtein Automata
- Libpalaso - Palaso Library: ชุดของไลบรารี. NET ที่มีประโยชน์สำหรับนักพัฒนาซอฟต์แวร์ภาษา
- Lingo Grammar Matrix เมทริกซ์ไวยากรณ์ Lingo เป็นกรอบสำหรับการพัฒนาความแม่นยำในวงกว้างความแม่นยำที่ใช้ไวยากรณ์สำหรับภาษาที่หลากหลาย
- Lingpy - LingPy: Library Python สำหรับงานเชิงปริมาณในภาษาศาสตร์ประวัติศาสตร์ http://lingpy.org
- ภาษาศาสตร์ภาษาศาสตร์เป็นโปรแกรมที่ออกแบบมาเพื่อสำรวจการเรียนรู้ที่ไม่ได้รับการดูแลของภาษาธรรมชาติโดยให้ความสำคัญกับสัณฐานวิทยา (โครงสร้างคำ) มันทำงานภายใต้ Windows, Mac OS X และ Linux และเขียนใน C ++ ภายในกรอบการพัฒนา QT ความต้องการของหน่วยความจำขึ้นอยู่กับขนาดของคลังข้อมูลที่วิเคราะห์
- Long -Press - JQuery Plugin เพื่อลดการเขียนของตัวละครที่เน้นเสียงหรือหายาก http://toki-woki.net/lab/long-press/
- ทรัพยากรต่ำ-POS-TAGGING-2014 POS-TAGGING ที่ทรัพยากรต่ำ: 2014
- LRL - สำหรับการทำงานเกี่ยวกับภาษาทรัพยากรต่ำ
- MacVoikko - เซิร์ฟเวอร์การสะกด OS X ตาม Voikko
- เครื่อง - เครื่องเป็นไลบรารีการประมวลผลภาษาธรรมชาติสำหรับ. NET ที่มุ่งเน้นไปที่การจัดหาเครื่องมือสำหรับการประมวลผลภาษาที่ยากจนทรัพยากร (ใช้โดย Flex)
- Make -Extensions - สคริปต์สำหรับการสร้างส่วนขยายการสะกดคำ Hunspell
- MGIZA - เครื่องมือการจัดตำแหน่งคำตาม Giza ++ ที่มีชื่อเสียงขยายเพื่อรองรับมัลติเธรดการฝึกอบรมต่อและการฝึกอบรมที่เพิ่มขึ้น
- การแปลของชนกลุ่มน้อยแปลเป็นโปรแกรมง่ายๆในการช่วยสร้างเนื้อหาในวิกิพีเดียขนาดเล็ก (จริง ๆ แล้วมีขนาดใด ๆ ) โดยให้พอยน์เตอร์กับบทความที่มีอยู่ในภาษาอื่น ๆ Wikipedias เพื่อให้ผู้ใช้สามารถแปลหรือปรับแต่งตำราที่มีอยู่ได้อย่างง่ายดาย
- Morfessor - Morfessor เป็นเครื่องมือสำหรับการแบ่งส่วนทางสัณฐานวิทยาที่ไม่ได้รับการดูแลและกึ่งผู้ดูแล
- Morpholm - แบบจำลองภาษาที่รู้สัณฐานวิทยา
- Morph -Test - สคริปต์ Python เพื่อเรียกใช้การทดสอบสำหรับการสร้างและการวิเคราะห์ตัวแปลงสัญญาณทางสัณฐานวิทยาที่สร้างขึ้นโดยใช้โครงสร้างพื้นฐาน Giella ทำงานร่วมกับ HFST, เครื่องมือ FST ของ Xerox และกับ FOMA
- Mosesdecoder - โมเสสระบบการแปลของเครื่อง
- MOZ-L10N-TIERS-สร้าง pseudo-locale เพื่อประเมินการจัดลำดับความสำคัญของสตริงสำหรับ L10N
- MUKURTUCMS - Mukurtu Content Management System (CMS) เป็นแพลตฟอร์มบนอินเทอร์เน็ตที่ออกแบบมาเพื่อเปิดใช้งานแหล่งข้อมูลทางวัฒนธรรมดิจิทัล
- Mythes - Mythes เป็นอรรถาthราพีเรื่องง่าย ๆ ที่ใช้ไฟล์ข้อมูลข้อความที่มีโครงสร้างและไฟล์ดัชนีที่มีการค้นหาแบบไบนารีเพื่อค้นหาคำและวลีและส่งคืนข้อมูลในส่วนของคำพูดความหมายและคำพ้องความหมาย
- MyWorksafe - การสำรองข้อมูลอัจฉริยะและง่ายสำหรับพนักงานพัฒนาภาษา http://software.sil.org/myworksafe/
- Nabu - Nabu เป็นระบบการจัดการรายการสื่อดิจิทัลที่ให้แคตตาล็อกรายการเสียงและวิดีโอข้อมูลเมตาสำหรับรายการเหล่านี้และข้อมูลเกี่ยวกับสถานะเวิร์กโฟลว์ของรายการ www.paradisec.org.au
- ธรรมชาติ - สิ่งอำนวยความสะดวกภาษาธรรมชาติทั่วไป JavaScript สำหรับโหนด
- NIST 2008 การประเมินการแปลแบบเปิดเครื่องเปิด
- NLTK - ชุดเครื่องมือภาษา Natural Python แหล่งที่มาของ NLTK http://www.nltk.org/
- Node -Panlex - ไคลเอนต์ Node.js สำหรับ panlex
- Norma - เครื่องมือสำหรับการทำให้การสะกดคำอัตโนมัติเป็นมาตรฐาน
- NPLM - ส้อมของ https://nlg.isi.edu/software/nplm/ ด้วยการปรับแต่งประสิทธิภาพและการปรับตัวเพื่อใช้ใน Mosesdecoder
- Octothorpe - Wiki ที่ขับเคลื่อนด้วย CouchDB
- ODTXSLT - ทำการแปลง XSLT บนเนื้อหาของแพ็คเกจ (เช่น ODT, DOCX ฯลฯ )
- Old-Webapp-ฐานข้อมูลภาษาศาสตร์ออนไลน์ --- ซอฟต์แวร์สำหรับการสร้างเว็บแอปพลิเคชันเพื่อทำงานร่วมกัน languages.http: //www.onlinelinguisticDatabase.org
- เก่า - ฐานข้อมูลภาษาศาสตร์ออนไลน์ (เก่า): ซอฟต์แวร์สำหรับการทำงานภาคสนามทางภาษา http://www.onlinelinguisticDatabase.org
- Old -Pyramid - ฐานข้อมูลภาษาศาสตร์ออนไลน์อพยพไปยัง Framework Pyramid
- OMEGAT-HFST-TOKENIZER-OMEGAT-HFST-TOKENIZER ให้การ toKenisation ที่ใช้ FST ใน Omegat
- Opendatakit Open Data Kit (ODK) เป็นชุดเครื่องมือโอเพนซอร์ซที่ช่วยให้องค์กรผู้เขียนฟิลด์และจัดการโซลูชันการรวบรวมข้อมูลมือถือ
- OpenNLP - Apache OpenNLP Library เป็นชุดเครื่องมือที่ใช้การเรียนรู้ของเครื่องสำหรับการประมวลผลข้อความภาษาธรรมชาติ เว็บไซต์.
- OPS -DEVBOX - Ansible Playbook สำหรับเครื่องพัฒนา (Linux)
- Panlex -Tools - แพ็คเกจนี้มีสคริปต์เพื่อแปลงทรัพยากรคำศัพท์ให้เป็นรูปแบบที่เหมาะสมสำหรับการนำเข้าสู่ Panlex เอกสารอาจพบได้ที่ https://dev.panlex.org
- PDSC-Collection-Viewer-เบราว์เซอร์คอลเลกชัน Paradisec
- กระบวนทัศน์ - กระบวนทัศน์คือการดำเนินงาน. NET (C#) ของ Joseph E. Grimes '1983 งานที่มีชื่อว่า "ตำแหน่ง Affix และ Cooccurrences: โปรแกรมกระบวนทัศน์"
- Pathway - การเตรียมข้อมูลภาษาสำหรับการตีพิมพ์
- PDFDROPLET - Library และ GUI สำหรับการจัดเก็บหน้า PDF (เช่น 2 -Up) http://software.sil.org/pdfdroplet/
- Pepper - Pepper เป็นเฟรมเวิร์กแบบเสียบแบบจาวาที่ใช้งานได้ง่ายสำหรับข้อมูลทางภาษา
- Phonology -Assistant - Assistant Phonology เป็นเครื่องมือการค้นพบ ได้รับการจัดทำแผนภูมิเสียงและผ่านความสามารถในการค้นหาโดยอัตโนมัติช่วยให้ผู้ใช้ค้นพบและทดสอบกฎของเสียงในภาษาโดยอัตโนมัติ
- Pressagio - Pressagio เป็นไลบรารีที่ทำนายข้อความตามรุ่น N -GRAM ตัวอย่างเช่นคุณสามารถส่งสตริงและไลบรารีจะส่งคืนคำศัพท์ที่น่าจะเป็นไปได้มากที่สุดสำหรับโทเค็นสุดท้ายในสตริง
- PrimerPro - จุดประสงค์ของ PrimerPro คือการช่วยเหลือผู้รู้หนังสือในการพัฒนาไพรเมอร์สำหรับภาษาที่กำหนด
- Pydelphin - Libraries Python สำหรับ Delph -in (Friendly Fork)
- RBGPARSER - ตัวแยกวิเคราะห์การพึ่งพากราฟ
- Rosetta Pangloss - ระบบ Pangloss ของโครงการ Rosetta
- SALM - SALM: อาร์เรย์คำต่อท้ายและแอปพลิเคชันในการประมวลผลภาษาเชิงประจักษ์โดยความสุข
- เกลือ - แบบจำลองกราฟเพื่อจัดเก็บและจัดการข้อมูลภาษาศาสตร์
- Saymore - เครื่องมือในการจัดทำเอกสารภาษาร่วมกันเช่นการจัดระเบียบไฟล์ที่ได้และข้อมูลเมตาทั้งหมดที่จัดระเบียบการแปลงไฟล์เป็นรูปแบบการเก็บถาวรและการถอดความ
- Secwepemc -Facebook - แปล Facebook เป็นภาษาที่ไม่ได้รับการสนับสนุน
- SEGPARSER - อัลกอริทึมโลภแบบสุ่มสำหรับการแบ่งส่วนร่วมการติดแท็ก POS และการแยกวิเคราะห์การพึ่งพา
- ต้นกล้า - การสร้างและใช้คลังเมล็ดพันธุ์สำหรับโครงการภาษามนุษย์
- Skype ในภาษาของคุณ - แปล Skype เป็นภาษาที่ไม่ได้รับการสนับสนุน
- Solid - Solid เป็นเครื่องมือซอฟต์แวร์ที่สามารถใช้ในการตรวจสอบทำความสะอาดและแปลงข้อมูลพจนานุกรมรูปแบบมาตรฐาน (เช่นกล่องเครื่องมือ)
- เครื่องมือการแปลง Sphere LDC Corpora จำนวนมากมีไฟล์คำพูดในรูปแบบ NIST Sphere โปรแกรมด้านล่างแปลงไฟล์ทรงกลมเป็นรูปแบบอื่น ๆ
- StandardFormatLib - ไลบรารีรูปแบบมาตรฐาน
- Stanford Corenlp - Stanford Corenlp: ชุด Java ของเครื่องมือ Core NLP https://stanfordnlp.github.io/corenlp/
- Stanford Corenlp Python - Python Wrapper สำหรับเครื่องมือ Stanford Corenlp
- Stanza - เครื่องมือ Python ที่ใช้ร่วมกันของ Stanford NLP Group
- STR2IPA-พจนานุกรมการออกเสียงสำหรับภาษาที่มีระบบการเขียนแบบใกล้เคียง
- SUGALI - นี่คือที่เก็บข้อมูลมรดกของโครงการระบุภาษาสำหรับโครงการภาษา (หลาย) ภาษาสำหรับหลักสูตรโครงการซอฟต์แวร์โครงการ NLP สำหรับภาษาที่มีทรัพยากรต่ำ
- Sugarlike - การระบุภาษาสำหรับภาษาทรัพยากรต่ำ (โดย Susanne, Guy and Liling)
- Syllabipy - อินเตอร์เฟส Python สำหรับอัลกอริทึมการพยางค์สากล
- Tasty-Imitation-Keyboard-คีย์บอร์ดที่กำหนดเองสำหรับ iOS8+ ที่ทำหน้าที่เป็นการเลียนแบบอร่อยของคีย์บอร์ด Apple เริ่มต้น สร้างขึ้นโดยใช้ Swift และ Apple Technologies ล่าสุด!
- TECKIT - ชุดเครื่องมือแปลงการเข้ารหัสข้อความ
- Teny - เครื่องมือสำหรับการแปลเครื่องที่มีทรัพยากรต่ำ
- Teradict - แปลคำภาษาอังกฤษเป็นหลายร้อยภาษา!
- tesseract.js - JavaScript Pure OCR สำหรับ 62 ภาษา ?? http://tesseract.projectnaptha.com/
- TexNLP - TexNLP: เครื่องมือประมวลผลภาษาธรรมชาติของเท็กซัส
- TIMBL Timbl เป็นแพ็คเกจซอฟต์แวร์โอเพนซอร์ซที่ใช้อัลกอริทึมการเรียนรู้ตามหน่วยความจำหลายอย่างซึ่ง IB1-IG การใช้งานการจำแนกประเภทเพื่อนบ้าน K-Nearest พร้อมการถ่วงน้ำหนักคุณลักษณะที่เหมาะสำหรับพื้นที่คุณลักษณะสัญลักษณ์ อัลกอริทึมที่นำไปใช้ทั้งหมดมีเหมือนกันว่าพวกเขาจัดเก็บการเป็นตัวแทนของชุดการฝึกอบรมอย่างชัดเจนในหน่วยความจำ ในระหว่างการทดสอบกรณีใหม่จะถูกจัดประเภทโดยการคาดการณ์จากกรณีที่จัดเก็บที่คล้ายกันมากที่สุด
- Toney - ซอฟต์แวร์การจำแนกประเภทเสียง
- กล่องเครื่องมือของนักภาษาศาสตร์ฟิลด์ - กล่องเครื่องมือเป็นเครื่องมือการจัดการข้อมูลและการวิเคราะห์สำหรับนักภาษาศาสตร์ภาคสนาม มันมีประโยชน์อย่างยิ่งสำหรับการรักษาข้อมูลคำศัพท์และสำหรับการแยกวิเคราะห์และการเชื่อมโยงข้อความ แต่สามารถใช้ในการจัดการข้อมูลทุกประเภท
- สคริปต์กล่องเครื่องมือสำหรับ Elan - Mirror of Alexander Koenig สคริปต์เครื่องมือของ Alexander Koenig https://tla.mpi.nl/tools/tla-tools/elan/thirdparty/
- ToolsForfieldlinguistics - คอลเลกชันของสคริปต์และสูตรอาหารสำหรับภาษาศาสตร์
- Transcriber - เครื่องมือการถอดรหัส HTML5 สำหรับ Aikuma
- TransTit -Engine - เครื่องมือการถอดรหัสที่เขียนด้วย JavaScript
- ข้อมูล Tsammalex - Tsammalex เป็นฐานข้อมูลคำศัพท์หลายภาษาบนพืชและสัตว์
- Tweet2Learn - แอพเพื่อให้ใช้ภาษาแม่ของคุณบน Twitter ได้ง่ายขึ้น
- Twitter_langid - เครือข่ายนิวรัลตัวละครแบบลำดับชั้นสำหรับการระบุภาษา
- เอกสาร Universaldencies - เอกสารการพึ่งพาสากลออนไลน์
- เครื่องมือ Universaldencies - ยูทิลิตี้ต่าง ๆ สำหรับการประมวลผลข้อมูล
- Vocbench Vocbench เป็นเครื่องมือที่ใช้งานได้หลายภาษาการแก้ไขและเวิร์กโฟลว์ที่จัดการรายการผู้มีอำนาจและอภิธานศัพท์โดยใช้ Skos-XL
- Wavesurfer.js - รูปคลื่นที่นำทางได้สร้างขึ้นบนเว็บเสียงและผ้าใบ https://wavesurfer-js.org/ (ยังมีปลั๊กอิน Elan)
- Web-Template-นี่คือเทมเพลตบนเว็บที่อาจใช้ในการนำเสนอแหล่งเรียนรู้ภาษาเพื่อช่วยในการฟื้นฟูภาษา มันรวมถึงพจนานุกรมการพูดคุยและวลีที่มีประโยคและวลี
- WebCorpus - โครงการนี้เป็นคอลเลกชันของสคริปต์และโปรแกรมสำหรับการสร้าง WebCorpus จากข้อมูลที่รวบรวมข้อมูล
- WIKT2DICT - เครื่องมือแยกวิเคราะห์ Wiktionary สำหรับรุ่นภาษาหลายฉบับ
- Wikipron - การติดตามการออกเสียง IPA สำหรับรายการ wiktionary
- Word Generator WordGenerator สร้างคำสมมุติฐานจากข้อกำหนดของโครงสร้างพยางค์
- WordBoundary - การทดลองในการตรวจจับและแบ่งส่วนของขอบเขตคำ
- WordByword-WordByword เป็นผู้ฝึกสอนคำศัพท์มัลติมีเดียที่ใช้งานง่ายที่ใช้งานง่ายพัฒนาโดย Vera Ferreira, Peter Bouda และ Ricardo Filipe ที่ Cidles ด้วยการสนับสนุนของมูลนิธิสำหรับภาษาใกล้สูญพันธุ์
- WSI4URLANG - การเหนี่ยวนำความรู้สึกของคำ (WSI) สำหรับภาษาที่ไม่ได้รับทรัพยากร (URLANG)
- XDXF_Makedict - รูปแบบพจนานุกรม XDXF และซอฟต์แวร์การแปลงพจนานุกรม "Makedict" (ที่เก็บอย่างเป็นทางการ)
ผู้ช่วยการกำหนดค่าเค้าโครงแป้นพิมพ์
- jQuery.ime - jQuery Input Method Editor ใช้กับ Wikipedia
- KBDGEN - สร้างคีย์บอร์ดและเค้าโครงแป้นพิมพ์สำหรับ Windows, MacOS, X11, iOS, Android และ Chrome จากไฟล์ YAML ที่เรียบง่ายเดียว นอกจากนี้ยังไม่ทราบภาษาของ Windows ดังนั้นหลังจากการติดตั้งมีความสัมพันธ์ที่ถูกต้องและมีประสิทธิภาพระหว่างรหัส BCP 47 ที่กำหนด (รวมถึงการสนับสนุนอย่างเต็มที่สำหรับ ISO 639-3) และเครื่องมือภาษาที่ติดตั้งเช่นคีย์บอร์ดการสะกดคำและเครื่องมืออื่น ๆ
- แป้นพิมพ์ - แป้นพิมพ์เสมือนจริงโดยใช้ jQuery ~ https://mottie.github.io/keyboard/
- คีย์บอร์ด - คีย์บอร์ด Keyman โอเพนซอร์ส
- Keyman - Keyman Cross Platform Input Methods Keyman ทำให้คุณสามารถพิมพ์ภาษามากกว่า 1,000 ภาษาบน windows, iPhone, iPad, แท็บเล็ต Android และโทรศัพท์และแม้แต่ในเว็บเบราว์เซอร์ของคุณทันที เว็บไซต์.
- keyboardLayouteditor - ตัวแก้ไขเค้าโครงแป้นพิมพ์
- ตัวแก้ไขเค้าโครงแป้นพิมพ์-ตัวแก้ไขเค้าโครงแป้นพิมพ์ http://www.keyboard-layout-editor.com
- LIPIKA-IME-เอ็นจิ้นวิธีการอินพุต (IME) สำหรับ MAC OS X พร้อมการสนับสนุนในตัวสำหรับภาษา indic ทั้งหมด
- XKEYBOARDCONFIG - ฐานข้อมูลการกำหนดค่าคีย์บอร์ดที่ไม่ใช่ Arch สำหรับหน้าต่าง X เป้าหมายคือการจัดหาแหล่งข้อมูลการกำหนดค่าคีย์บอร์ด X ที่มีโครงสร้างที่สอดคล้องกันบ่อยครั้งสำหรับการใช้งานระบบหน้าต่าง X (ฟรีโอเพ่นซอร์สและเชิงพาณิชย์) โครงการนี้มีเป้าหมายไปที่ระบบที่ใช้ XKB
คำอธิบายประกอบ
- AGTK - AGTK เป็นชุดของส่วนประกอบซอฟต์แวร์สำหรับการสร้างเครื่องมือสำหรับการใส่คำอธิบายประกอบสัญญาณภาษาศาสตร์ข้อมูลอนุกรมเวลาซึ่งจัดทำเอกสารพฤติกรรมทางภาษาใด ๆ (เช่นเสียงวิดีโอ) โครงสร้างข้อมูลภายในจะขึ้นอยู่กับกราฟคำอธิบายประกอบ (โครงการดั้งเดิมอยู่ใน SourceForge: https://sourceforge.net/projects/agtk/)
- Brendano - ภาษากราฟชิ้นส่วนสำหรับคำอธิบายประกอบวากยสัมพันธ์ง่าย ๆ https://www.cs.cmu.edu/~ark/fudg/
- Elan Elan เป็นเครื่องมือระดับมืออาชีพสำหรับการสร้างคำอธิบายประกอบที่ซับซ้อนในทรัพยากรวิดีโอและเสียง
- EOPAS - การนำเสนอออนไลน์และระบบคำอธิบายประกอบออนไลน์
- Flat - Folia Linguistic Annotation Tool - Flat เป็นสภาพแวดล้อมคำอธิบายประกอบภาษาศาสตร์บนเว็บตามรูปแบบ Folia (http://proycon.github.io/folia/) รูปแบบ XML ที่หลากหลายสำหรับคำอธิบายประกอบภาษาศาสตร์ FLAT ช่วยให้ผู้ใช้สามารถดูเอกสาร FOLIA ที่มีคำอธิบายประกอบและเพิ่มคุณค่าเอกสารเหล่านี้ด้วยคำอธิบายประกอบใหม่ได้รับการสนับสนุนประเภทคำอธิบายประกอบภาษาที่หลากหลายผ่านกระบวนทัศน์ของ FOLIA มันเป็นเครื่องมือที่เน้นเอกสารเป็นศูนย์กลางที่เก็บรักษาและแสดงโครงสร้างเอกสารอย่างเต็มที่
- gfl_syntax - ภาษาแฟรกเมนต์กราฟสำหรับคำอธิบายประกอบวากยสัมพันธ์ง่าย ๆ https://www.cs.cmu.edu/~ark/fudg/
- Graf-Python-Library Graf-Python เป็น Python โอเพนซอร์สที่แสดงการแยกวิเคราะห์และเขียนไฟล์ GRAF/XML ตามที่อธิบายไว้ใน ISO 24612 ตัวแยกวิเคราะห์ของไลบรารีสร้างกราฟคำอธิบายประกอบจากไฟล์ จากนั้นผู้ใช้อาจสอบถามกราฟคำอธิบายประกอบผ่าน API ของ Graf-Python
- Kwaras - เครื่องมือสำหรับการจัดการ Elan Corpus
- LDC Word Aligner LDC Word Agener เป็นเครื่องมือซอฟต์แวร์ที่ใช้สำหรับคำอธิบายประกอบด้วยตนเองของการจัดตำแหน่งคำที่พัฒนาขึ้นเพื่อสนับสนุนงานการจัดตำแหน่งคำภาษาอังกฤษภาษาอังกฤษและภาษาจีน-อังกฤษ มันมีอินเทอร์เฟซที่สะอาดและใช้งานง่าย นับตั้งแต่การพัฒนาในปี 2009 LDC ได้ใช้ LDC Word Aligner เพื่อสร้างโทเค็นข้อมูลการจัดตำแหน่งคำอธิบายประกอบมากกว่า 1,000,000 โทเค็นจากหลากหลายประเภทรวมถึงแหล่งข่าวการออกอากาศนิวส์ไวร์และแหล่งข้อมูลบนเว็บ เว็บไซต์.
- Poio -Analyzer - Poio เป็นชุดของเครื่องมือซอฟต์แวร์สำหรับนักภาษาศาสตร์ที่ทำงานในเอกสารภาษาภาษาศาสตร์เชิงพรรณนาและ/หรือประเภทภาษา It allows linguists to manage and analyze their data. The Poio Interlinear Editor allows to add morpho-syntactic annotations to transcriptions. It supports various file formats for input, but will only output standardized XML defined by the Corpus Encoding Standard and the Text Encoding Initiative. Several tools for analyzing linguistic data will be made available to further process annotated data. Poio tools are written in Python and are based on PyQt.
- poio-api - Poio API is a free and open source Python library to access and search data from language documentation in your linguistic analysis workflow. It converts file formats like Elan's EAF, Toolbox files, Typecraft XML and others into annotation graphs as defined in ISO 24612. Those graphs, for which we use an implementation called “Graph Annotation F…
- pyannotation - PyAnnotation is a Python Library to access and manipulate linguistically annotated corpus files.
- XTrans Trans is a next generation multi-platform, multilingual, multi-channel transcription tool that supports manual transcription and annotation of audio recordings. The XTrans toolkit provides new and efficient solutions to common transcription challenges and addresses critical gaps in existing tools.Designed with input from experienced human transcribers working with real world data, XTrans provides a flexible and intuitive graphical user interface for a multitude of speech annotation tasks including (virtual) segmentation of audio into smaller units like turns and sentences; speaker identification; orthographic transcription in any language; and labeling of structural elements of the transcript like topics.
Format Specifications
- spec - The official specification for the DLx linguistic data format. https://digitallinguistics.github.io/spec/.
- FoLiA FoLiA: Format for Linguistic Annotation - FoLiA is a rich XML-based annotation format for the representation of language resources (including corpora) with linguistic annotations. A wide variety of linguistic annotations are support, making FoLiA a useful format for NLP tasks and data interchange. http://proycon.github.io/folia/
- xdxf_makedict - XDXF dictionary format and "makedict" dictionary converting software (official repository).
i18n-related Repositories
- Express-Lingua - An i18n middleware for the Express.js framework.
- Polyglot.js Give your JavaScript the ability to speak many languages.
- Transifex - System for providing a nice, userfriendly/project oriented approach to translating
.po files. Great for non-technical users, free for open-source projects, decent for minority languages; however , it can take a while to get a new language added to the Transifex system because the ticketing system Transifex uses results in them losing tickets sometimes. Provides translation memory, ability to appoint reviewers, etc. Transifex used to have an open source system that you could host on your own, but that seems to have disappeared.
Audio automation
- arctic-prompts - Generate prompts PDF for CMU ARCTIC dataset.
- AudioWebService - a simple nodejs server which accepts upload of audio and runs it through praat.
- AuToBI - Automatic prosodic annotation tool written in Java.
- BashScriptsForPhonetics - ( Fork of a dormant project).
- esv-text-audio-aligner - ESV Text/Audio Aligner to programmatically obtain the timings for each word in the corresponding audio.
- html5-audio-read-along - HTML5 Audio Read-Along.
- ipa-chart - International Phonetic Alphabet (IPA) Unicode Chart and Character Picker.
- kaldi-svn-archive - An read-only archive of the original Kaldi SVN repository (mainly to keep sandboxes available).
- lex4all - pronunciation LEXicons for Any Low-resource Language ( Fork of a student project).
- Montreal-Forced-Aligner - Python interface for forced text/speech alignment.
- node-pocketsphinx
- opensauce - GNU Octave-compatible version of VoiceSauce.
- pocketsphinx - PocketSphinx is a lightweight speech recognition engine, specifically tuned for handheld and mobile devices, though it works equally well on the desktop.
- pocketsphinx-ios-demo - Simple demo for iOS.
- pocketsphinx-python - Python module installed with setup.py.
- pocketsphinx-ruby - Ruby speech recognition with Pocketsphinx.
- pocketsphinx-wp-demo - Demo to run pocketsphinx on WP8 platform.
- pocketsphinx.js - Speech recognition in JavaScript.
- praat-py - From my PhD days: Praat-Py is a custom build of Praat, the computer program used by linguists for doing phonetic analysis on sound files, to allow for scripts to be written in the Python programming language, rather than in Praat's built-in language. ( Fork of a dormant project).
- Praat-Scripts - Mietta's Scripts.
- PraatTextGridJS - A small library which can parse TextGrid into json and json into TextGrid.
- PraatontheWeb - Web implementation of Praat. Source code, running demo scripts on web, samples and documentation.
- prosodicParsing - different kinds of HMMs to use for incorporating prosody into basic parsing.
- Prosodylab-Aligner - Python interface for forced audio alignment using HTK and SoX.
- prosodylab.alignertools
- Recordmp3js - Record MP3 files directly from the browser using JS and HTML.
- sphinx4 - Pure Java speech recognition library.
- sphinxbase
- sphinxtrain
- TLSphinx - Swift wrapper around Pocketsphinx.
Text-to-Speech (TTS)
- espeak - eSpeak is a compact open source software speech synthesizer for English and other languages, for Linux and Windows. http://espeak.sourceforge.net.
- MARY TTS - MARY TTS -- an open-source, multilingual text-to-speech synthesis system written in pure java http://mary.dfki.de.
- Ossian - Ossian is a collection of Python code for building text-to-speech (TTS) systems, with an emphasis on easing research into building TTS systems with minimal expert supervision.
Automatic Speech Recognition (ASR)
- Elpis - Elpis is software for creating speech recognition models and applying them to the transcription of audio. As of 2022, it gives access to Kaldi and Huggingface Transformers.
- kaldi - This is now the official location of the Kaldi project.
- Persephone - Persephone aims to make state-of-the-art phonemic transcription accessible to people involved in language documentation, who have a training corpus of about one to four hours of transcribed speech. As of 2022, Persephone is superseded by Elpis.
Text automation
- clld - Cross Linguistic Linked Data python library.
- LaTeX2HTML5 - LaTeX web components.
- MultilingualCorporaExtractor - Node io Spider for extracting multilingual corpora ( Fork of a student project).
- SeedLing - Building and Using A Seed Corpus for the Human Language Project ( Fork of a student project).
Experimentation
- experigen - A framework for creating linguistic experiments.
- GamifyPsycholinguisticsExperiments - A simple node server to gamify linguistics experiments, runs offline on a laptop for small scale experiements and online on a server for large scale experiments. Data is sent to a Google spreadsheet. ( Fork of a dormant project).
- OpenSesame - Graphical experiment builder for the social sciences.
- OPrime - Open Source Experimentation Libraries - Online and Offline for Android and HTML5.
- psychopyMegProsody - Runs MegProsody using PsychoPy.
- PsychScript - A HTML5/Javascript library for running behavioural experiments online.
Flashcards
- Anki - Anki is a program to make and share flaschard decks (including audio) for any language or writing system. https://apps.ankiweb.net/.
- awesome-anki - A curated list of awesome Anki add-ons, decks and resources.
- VocabLift - Language-learning tool that uses vocabulary from LIFT-format dictionaries produced by programs such as Fieldworks Language Explorer and WeSay.
Natural language generation
- OpenCCG - OpenCCG library for parsing and realization with CCG. Includes mini-grammars for Inuit, Nezperce, Basque and others.
Computing systems
- Common Language Resources and Technology Infrastructure Norway / Clarino - One of their projects (not clearly listed here) is about providing an online system for language analysis, so users can connect resources visually, dump in text, and get a result. Kind of like the Yahoo! Pipes but for language processing. Uses the ABEL cluster.
Android Applications
- Aikuma - Android software for recording and translation.
- Android Speech Recognition Trainer - Speech recognition training app for low resource languages which interfaces with FieldDB corpora.
- android-template - This is a template of an Android word-learning app that may be used a way to introduce a language. It includes a quiz. For the documentation, go to http://eddersko.github.io/android-template/.
- AndroidFieldDB - An Android app which lets the user build a custom visual and auditory vocabulary, useful for guided anomia treatment and self designed language lessons by heritage speakers.
- AndroidFieldDBElicitationRecorder - A general purpose video recording tool.
- AndroidLanguageLessons - Lets heritage speakers create self designed language lessons.
- AndroidProductionExperiment - Android App to run perception experiments.
- Bevara - Android Phone Application designed for Linguistic Fieldwork to help preserve, maintain, and save endangered languages.
- ojoVoz - A mobile app for sending georeferenced image and voice recordings from an Adroid phone to an email address. For more information, please go to http://sautiyawakulima.net/ojovoz/.
- pocketsphinx-android - pocketsphinx build for Android.
- pocketsphinx-android-demo
Chrome Extensions
- babelfrog - Chrome extension to help learn languages as you browse.
- DictionaryChromeExtension - Dictionary for websites in low-resource languages. App and codebase which connects to a Wiktionary to provide definitions of any term on any website (current languages Cherokee 194,426 entries, Inuktitut 251 entries, Kartuli 7,363 entries, Plains Cree (incubation) 0 entries) use.
FieldDB
FieldDB is actively worked on by the FieldDB (Formally known as OpenSourceFieldlinguistics) group. These repos explicitly work with it but could be repurposed for other projects.
- FieldDB - An offline/online field database which adapts to its user's terminology and I-Language, has plugins for various data automation routines along the process of primary data collection to cleaning to publication and archival. ใช้.
FieldDB Webservices/Components/Plugins
- AndroidLanguageLearningClientForFieldDB-sikuli - Sikuli tests for AndroidLanguageLearningClientForFieldDB.
- AuthenticationWebService - A node.js web service which mananges users and corpora creation and authentication.
- bower-fielddb-angular - A bower repository which hosts fielddb-angular components, bower install fielddb-angular --save.
- bower-fielddb - A bower repository which hosts fielddb core components, bower install fielddb --save.
- fielddb-spreadsheet-sikuli - sikuli tests for the spreadsheet module use.
- FieldDBActivityFeed - A fielddb activity feed widget which can be embedded in other codebases, websites etc use.
- FieldDBGlosser - A semi-unsupervised language independent morphological analyzer useful for stemming unknown language text, or getting a rough estimate of possible parses for morphemes in a word. bower install fielddb-glosser --save.
- FieldDBLexicon - A lexicon browser/editor web widget for FieldDB databases.
- LanguageClassDashboard - App which provides a view of FieldDB corpora for language teachers use.
- LexiconWebService - A node.js ElasticSearch wrapper for indexing/training lexicons from corpora.
- LexiconWebServiceSample - A node.js web server which implements the fieldlinguist's lexicon API for the FieldDB project.
Academic Research Paper-Specific Repositories
- Gargantua - Fast Unsupervised Sentence Aligner described in "Improved unsupervised sentence alignment for symmetrical and asymmetrical parallel corpora", COLING 2010.
- ldc-kiy - Materials for: The experimental state of mind in elicitation: illustrations from tonal fieldwork. Dubmitted to Language Documentation & Conservation, How to study a tone language .
- Learning to map into a Univerisal POS tagset Yuan Zhang, Roi Reichart, Regina Barzilay and Amir Globerson
- low-resource-pos-tagging-2014 and low-resource-pos-tagging-2014 Published in: Learning a Part-of-Speech Tagger from Two Hours of Annotation. Dan Garrette and Jason Baldridge . In Proceedings of NAACL 2013. And in: Real-World Semi-Supervised Learning of POS-Taggers for Low-Resource Languages. Dan Garrette, Jason Mielens, and Jason Baldridge . In Proceedings of ACL 2013.
- orthotree - Linguistic family tree based on orthographic distance.
- type-supervised-tagging-2012emnlp This repository contains the code, scripts, and instructions needed to reproduce the results in the paper: Type-Supervised Hidden Markov Models for Part-of-Speech Tagging with Incomplete Tag Dictionaries. Dan Garrette and Jason Baldridge . In Proceedings of EMNLP 2012. This code is frozen as of the version used to obtain the results in the paper. It will not be maintained. To see the updated code, visit nlp
- visualizing-language - For visualizations of WALS and other typological databases.
- WALS-APiCS - Code for working with WALS-APiCS (Atlas of Pidgin and Creole Language Structures) complexity metrics.
Example Repositories
These are repositories that are generally only interesting for training purposes or seeing how something is done.
- CorpusWebService - über-simple node.js-Proxy to enable CORS request for couchdb.
- CorporaForFieldLinguistics - Small corpora from diverse language typologies, useful for testing scripts.
- startR
- lucenerevolution-2013 - Demo examples for linguistics in Lucene and Solr.
- berlin-buzzwords-2013 - Demo examples for Lucene, Solr, ElasticSearch and OpenNLP from Berlin Buzzwords 2013 talk.
Fonts
- fontinline - Make inline stroke paths from an outline font.
- Noto Fonts - Noto is Google's free font family that aims to support all the world's scripts. Its design goal is to achieve visual harmonization across languages. Noto fonts are under Apache License 2.0.
- Unicodify Unicodify is a suite of programs for converting text in a variety of 8-bit encodings to Unicode (using the UTF-16 encoding). Unicodify was particularly designed to handle HTML-based text using non-ISCII 8-bit fonts to render South Asian scripts. However, elements of the suite can map other types of non-ASCII 8-bit encodings, such as Latin-2, ISCII and PASCII.
Corpora
These corpora are useful for working with tools on endangered languages. Monolingual corpora that are more for archival efforts should most likely not be included here.
- bible-corpus - A multilingual parallel corpus created from translations of the Bible.
- poio-corpus - The Poio Corpus is a freely available collection of language resources for the lesser-used languages. The data is extracted from free sources like Wikipedia, dictionaries, documents, websites and others.
Organizations
On GitHub
- batumi - Speech recognition and natural language processing for low-resource languages
- BloomBooks
- unicode-cldr - Unicode Common Locale Data Repository (CLDR) Project http://cldr.unicode.org
- cmusphinx - Mirror of the SourceForge repositories
- dativebase - Tools for working with OLD.
- divvun - The Divvun group at UiT develops proofing tools, keyboard apps and other language technology solutions for indigenous and minority languages, especially the Sámi languages. เว็บไซต์.
- FieldDB
- GiellaLT - home for keyboard layouts, lexicons and morphologies for indigenous and minority languages, especially for morphologically complex languages, using mainly rule-based techonlogies. The resources are used by Divvun (above) and Giellatekno (below) to build a number of tools for the language communities. Almost everything is open source.
- HFST - Helsinki Finite-State Technology. เว็บไซต์.
- hunspell
- keymanapp - Website.
- langtech - Language Technology Group, University of Melbourne
- lex4all
- longnow
- MontrealCorpusTools
- moses-smt - Statistical Machine Translation.
- mukurtucms
- NLTK - Natural Language Toolkit.
- PhonologicalCorpusTools)
- Projet de recherche sur l'écriture - Crowdsourcing or conducting large scale psycholinguistics experiments (or statistically significant field linguistics).
- prosodylab - Prosodylab at McGill University, Canada
- SIL International (Dev) SIL International- Another SIL organization, with many repositories.
- SIL International - SIL (originally known as the Summer Institute of Linguistics, Inc.) is probably the leading organization which provides software and tools tailored for use by field linguists and lexicographers working on endangered languages. A little known fact is that much of it's code is open sourced on GitHub and SIL is happy to recieve open source contributions and collaborate on open source projects.
- SIL NRSI - SIL Non-Roman Script Initiative. The NRSI is a department of SIL International, whose task is to provide assistance, research and development for SIL International and its partners to support the use of non-Roman and complex scripts in language development.
- StanfordNLP https://nlp.stanford.edu
- ucsd-field-lab - University of California, San Diego
- UniversalDependencies - Universal Dependencies (UD) is a project that is developing cross-linguistically consistent treebank annotation for many languages, with the goal of facilitating multilingual parser development, cross-lingual learning, and parsing research from a language typology perspective. The annotation scheme is based on an evolution of (universal) Stanford dependencies (de Marneffe et al., 2006, 2008, 2014), Google universal part-of-speech tags (Petrov et al., 2012), and the Interset interlingua for morphosyntactic tagsets (Zeman, 2008). The general philosophy is to provide a universal inventory of categories and guidelines to facilitate consistent annotation of similar constructions across languages, while allowing language-specific extensions when necessary.
- utcompling - The University of Texas at Austin's Computational Linguistics Lab. เว็บไซต์.
Other OSS Organizations
- Giellatekno - Giellatekno combines cutting-edge linguistic and computational research into the analysis of Saami and other morphologically-rich languages, with the development of practical applications. We focus on deep linguistic modeling and on highly efficient and robust computational analysis with a wide empirical coverage. They use svn for their code: all of it can be found here, sorted by language.
- LOWLANDS - LOWLANDS – Parsing low-resource languages and domains https://ccc.ku.dk/research/lowlands/
- LTRC: Language Technologies Research Center IIIT Hyderabad LTRC addresses the complex problem of understanding and processing natural languages in both speech and text mode. LTRC conducts research on both basic and applied aspects of language technology. It is the largest academic centre of speech and language technology in South Asia. LTRC carries out its work through four labs, which work in synergy with each other, as listed above.
- The Language Archive Part of the MPI
บทเรียน
- How to Write a Spelling Corrector by Peter Norvig.
Language Specific Projects
For each language, we include the ISO 639-3 code, and the main autonym for that language.
ชาวแอฟริกัน
afr :: Afrikaans
- Afrikaanse rekenaarlinguïstiek (Afrikaans computational linguistics) — wordlists, corpora, morphological analyser, tagger, word decompounder. Available upon email.
ชาวแอลเบเนีย
sqi :: shqip
- Apertium rules for Albanian - Machine Translation rules
- out-of-copyright-albanian-authors - authors scraped from the albanian language wikipedia who are out of copyright.
- Plis keyboard - The Plis keyboard is a keyboard or computer keyboard layout for the Albanian language.
- spell checking - Here you find a collection of Albanian words and information about them. Aspell, Ispell, and MySpell are included.
Alutiiq
ems :: sugpiaq
- wiinaq - Word Wiinaq is a Kodiak Alutiiq dictionary web application with automatically generated ending tables and souped-up search capabilities. It is written in Python using Django.
อัมฮาริก
amh :: አማርኛ
- HornMorpho - Morphological analysis and generation of Amharic and Oromo verbs and nouns and Tigrinya verbs
เกี่ยวกับบาสก์
eus :: euskara
- Matxin - An open-source transfer machine translation engine. Linguistic information for the translation from Spanish and Basque (es-eu) is included.
เบงกอล
ben :: বাংলা
- Bangla-অঙ্কুর for Mac This project aims to develop a phonetic based Bangla typing system for Macintosh computer which can be developed into a transliteration technique in the future.
- Bengali Writer - `Bengali Writer' is a set of utilities for computerized editing and typesetting in Bengali, a language of India and Bangladesh. It comprises a set of fonts for Bengali in several formats (METAFONT, BDF, PS), a text editor with spell-cheking, export, and more. (Original project is on SourceForge: https://sourceforge.net/projects/bengaliwriter/).
- Ekushey Bangla Computing and Localization Project for the Bangla speaking people.
- Lekho - A collection of tools and resources for using bangla on computers (Original project is on SourceForge: https://sourceforge.net/projects/lekho/).
ชิชวะ
nya :: chicheŵa
- Chichewa - NLP resources for Chichewa.
กาลิเซีย
glg :: galego
- an-metri-gal - Análise métrico de texto en verso en lingua galega (Galician language) gl-ES
- android_gl_dict - Android Galician (gl_ES) Keyboard Dictionary
- aspell-gl - Galician dictionary for aspell
- CitiusSentiment - Sentiment analysis (opinion mining) for Portuguese, English, Spanish, and Galician
- CitiusTagger - A PoS-Tagger and Named Entity Classification tool for Portuguese, English, Galician, and Spanish
- Conshuga - Galician verb conjugator
- corpora - This is a collection of corpus of Galician (or related to Galicia) words / Colección de corpus de palabras en galego (ou relacionadas con Galicia)
- DepPattern - Dependency Syntactic Parsing for Portuguese, Spanish, English, and Galician, including MetaRomance parser
- DOGA_scraper - Galician Official journal scraper
- elFinder-language - Galician - Gallego / language for elFinder
- EuroWordNetLemon - EuroWordNet lemon lexicons generated from the LMF versions of the Multilingual Central Repository (MCR) EuroWordNet lexicons. It includes lexicons for Spanish, Catalan, Basque & Galician.
- GalegoDroid - Galician Translator for Android
- galeXtra - Multiword Extractor for Portuguese, English, Spanish, Galician, French
- Galician-Dependency-Treebank - This Galician Dependency Treebank has been developed by transliterating and adapting lexically the Portuguese part (Bosque 7.3 by the Floresta sintá(c)tica project) of the CONLL-X 2006.
- Galician-Fuzzy-Text-watch - Based on Fuzzy Text International by Jesse Hallett, uses the galician language to display time.
- galician-locale-for-mac - Galician locale for Mac OS X
- gl-syllabler - Split galician language words into syllables
- gl- Galician OmegaT Localisation
- hunspell-gl-ciencias - Project oriented into developing a science and maths Galician language Hunspell dictionary
- hunspell-gl - Galician hunspell dictionaries
- hyphen-gl - Galician hyphenation rules
- javagalician-java6 - The Java Galician Locale is an implementation of Java localization SPIs which will allow the Java VM to use the Galician Language (locales "gl" and "gl_ES"), one of the official languages of Spain, which is not included in Sun's JVM distribution.
- Linguakit - Multilingual toolkit for NLP: dependency parser, PoS tagger, NERC, multiword extractor, sentiment analysis, etc.
- ParlamentoGalicia - Project based on the information extracted from the transcriptions of the sessions held in the Galician Parlament
- poss-gl - Galician translation of Producing Open Source Software, by Karl Fogel
- rima - Find rhyming words in galician language.
- stopwords-gl - Galician stopwords collection
- texlive-babel-galician - TeXLive babel-galician package
- UD_Galician-CTG - The Galician UD treebank is based on the automatic parsing of the Galician Technical Corpus created at the University of Vigo by the the TALG NLP research group.
- UD_Galician-TreeGal - The Galician-TreeGal is a treebank for Galician developed at LyS Group (Universidade da Coruña).
- UL_Galician-TreeGal - CoNLL-UL Repository for UD_Galician-TreeGal
Apertium
- apertium-cat-glg - Apertium translation pair for Catalan and Galician
- apertium-dict-en-gl - English-Galician language pair for Apertium
- apertium-dict-es-gl - Spanish-Galician language pair for Apertium
- apertium-dict-pt-gl - Portuguese-Galician language pair for Apertium
- apertium-en-gl - Apertium translation pair for English and Galician
- apertium-es-gl - Apertium translation pair for Spanish and Galician
- apertium-glg - Apertium linguistic data for Galician
- Apertium-pt-gl.pt-gl-LMF - This is the LMF version of the Apertium bilingual ditionary for Portugues and Galician languages
- apertium-pt-gl - Apertium translation pair for Portuguese and Galician
ชาวจอร์เจีย
kat :: ქართული
- awesome-georgia - A curated list of awesome libraries and packages specific/related to Georgia (country).
- Gadatsqvetilebebi - გადაწყვეტილებები; Web spider and corpora importer for public legal decisions.
- GeoWordsDatabase - Around 310 000 unique Georgian words https://bumbeishvili.github.io/GeoWordsDatabase/.
- Kartuli Speech Recognition - ანდროიდის ქართველი მომხმარებლებისთვის სიტყვის ამოცნობის სისტემის შექმნა. Codebase to turn any webpage from any alphabet into another alphabet, the default is to turn latin letters into Kartuli. use "Do your friends keep commenting on Facebook with English keyboards (either because they forgot to switch, or because they didn't/can't install a Georgian keyboard)? Now you can read the web through კართული eyes.".
- KartuliChromeExtension - Chrome აპლიკაცია, რომელიც ყველა ინგლისურ ასო-ბგერას აჩვენებს ქართულ ასო-ბგერად.
- QartuliDaBunebismetkveleba - მათემატიკისა და ბუნებისმეტყველების ინტერაქტიული სახელმძღვანელო მე-2 - მე-3 კლასის მოსწავლეებისათვის.
- SakartvelosUzenaesiSasamartloSarke - საქართველოს უზენაესი სასამართლო სარკე.
- SamartlosSakonstitutsioSasamartdoSarke - სამართლოს საკონსტიტუციო სასამართდო სარკე.
- translitit-latin-to-mkhedruli-georgian - A Latin to ქართული (Mkhedruli Georgian) transliteration function written in JavaScript.
- translitit-mkhedruli-georgian-to-ipa - A Latin to ქართული (Mkhedruli Georgian) transliteration function written in JavaScript.
- Declensions - Methods to generate declensions for Georgian language
Fonts
- Stichoza/font-larisome - Iconic font for Georgian currency inspired by Font-Awesome (CSS).
- Lotuashvili/BPGNateli - Bower package for BPG Nateli font (CSS).
- thecotne/georgian-webfonts - Package for georgian fonts (CSS).
Internationalization and Localization (i18n/l10n)
- Stichoza/money-num-to-string - Convert a number/money to localized string (PHP, JavaScript).
- natchkebiailia/NumberToWord - Convert numbers to localized strings (JavaScript).
- d0ragon/number-to-words-ka - Convert numbers to localized strings (PHP).
- dimakura/ka - Common functionality for georgian projects (Ruby).
- dimakura/ka.js - Georgian language support for node and browser (JavaScript).
- akalongman/kautilities - Convert Georgian letters to Latin and vice-versa (PHP).
- Landish/Laravel-Ka - Laravel Georgian Language Pack.
- Landish/RedactorJS-GE - Redactor WYSIWYG HTML Editor Georgian Language Pack (JavaScript).
- wenzhixin/bootstrap-table - Bootstrap table with extra features. l10n by @Lotuashvili and @Stichoza.
- moment/moment - A lightweight date library (JavaScript).
- ioseb/geokbd - Georgian keyboard library (JavaScript).
Guarani
grn :: Guarani
- ParaMorfo - morphological analysis and generation of Spanish and Guarani verbs, nouns, and adjectives.
เฮาซา
hau :: هَرْشَن هَوْسَ
- Hausa - Repository for Hausa NLP tools.
ภาษาฮินดี
hin :: हिन्दी
- hindi-morph - An open source morphological analyzer for Hindi.
Høgnorsk
nno :: Høgnorsk
- hunspell-hn_NO - A beginning to a spellchecking tool for Høgnorsk, a conservative variant of Norwegian Nynorsk, based on a set of corpuses.
เกี่ยวกับไอซ์แลนด์
isl :: íslenska
- IceNLP - IceNLP is an open source Natural Language Processing (NLP) toolkit for analyzing and processing Icelandic text. The toolkit is implemented in Java.
Inuktitut
iku :: Inuktitut
- InuktitutAlignerData - Scripts for alignment of laboratory speech production data.
- InuktitutComputing - Inuktitut Morphological Analyser, transcoder, transliterator, corpus tools, and lexical lists for working with Inuktitut. Usable online at http://inuktitutcomputing.ca/index.php.
เกี่ยวกับไอริช
gle :: Gaeilge
- aimsigh - Source for the now-defunct aimsigh.com Irish search engine.
- caighdean - Code for standardizing Irish language text.
- fleiscin - Irish hyphenation patterns for TeX https://cadhan.com/fleiscin/.
- GaelSpell - Sources for an Irish language spell checker.
- tesseract-gle-uncial - OCR for old Irish fonts.
Kinyarwanda
kin :: Ikinyarwanda
- kin-morph-fst - Kinyarwanda morphological analyzer.
- TurboTagger & TurboParser for Kinyarwanda (download) TurboTagger & TurboParser for Kinyarwanda
ชาวเคิร์ด
kur :: Kurdî
- Kurlex - Morphological analyser and lexicon, written in the Alexina framework, licensed under the LGPL-LR.
- kurmanji-stemmer - NLTK based kurmanji stemmer
Lingala
lin :: Lingála
- Lingala NLP NLP tools and resources for Lingala
Lushootseed
lut :: Lushootseed
- Lushootseed - Joshua Crowgey's work on Lushootseed http://students.washington.edu/jcrowgey/lushootseed/.
มลายู
msa :: Bahasa Melayu
- MorfoMalayu - morphological analysis of Malay words.
มาลากาเซ
mlg :: Malagasy
- Global Voices Malagasy Project This page provides a link to a corpus of parallel news articles in Malagasy and English from the Global Voices project. This corpus was collected and aligned at the sentence level by Victor Chahuneau.
Manx
glv :: Gaelg
- aspell-gv - Manx Gaelic dictionary for aspell.
- gaelg - NLP resources for Manx Gaelic, mainly in support of the gv2ga MT engine.
Migmaq
mic :: Mi'kmaq
- migmaq-lessons - Repository for website building Mi'gmaq language lessons.
Minderico
drc :: Piação do Ninhou
- fredericajordarzambarino - A web based game for mobile devices in minderico based in the "Who Wants to be a Millionaire" TV show.
Nishnaabe
oji :: Ojibwe, Oddawa, Chippewa, Anishinaabemowin, ᐊᓂᔑᓈᐯᒧᐎᓐ
- Ojibway-iphone-app - An iPhone app with audio and images for learning the Ojibway language.
- OjibwayMap - An iPhone app with audio and images for learning Ojibway language and culture.
- nishanimate - A desktop app to facilitate Nishnaabe-language acquisition via animations produced by the natural language processing of audio-accompanied text.
Oromo
orm :: Oromo
- hornmorpho - morphological analysis and generation of amharic and oromo verbs and nouns. and tigrinya verbs
Quechua
que :: Runa Simi
- AntiMorfo - morphological analysis and generation of Quechua nouns, adjectives, and verbs and Spanish verbs.
- Morphology, spellchecker - XFST and FOMA, plus OpenOffice plugin.
Sami
sma :: Sámi/Saami
- divvun-webdemo - simple webdemo for divvun grammar checker. เว็บไซต์.
- Giellatekno A host of Sámi tools.
- Mobile keyboards (iOS and Android), learning apps, dictionaries, morphologies, syntax disambiguators, some amount of project collaboration with Apertium on shallow translation between Saami languages, and
- Oahpa! - A learning portal for Saami languages. Includes WordPress based, media rich lesson-based learning, and morphological and syntactic exercizes generated from the morphological and syntactic tools
- Neahttadigisánit - A morphologically sensitive dictionary, with modes for 'social media input' (which allows users to type a 'relaxed' version of the orthography ( acdnstz will be recognized also as áčđŋšŧz̄ ), and also includes a JavaScript bookmarklet to offer click-to-read dictionary lookup functionality. Also available for other Uralic, and non-Uralic languages. Giellatekno does a lot for other minority Uralic languages. Following are some keywords for CTRL+F friendliness:
- Saami languages: North Saami, Lule Saami, South Saami // Inari Saami, Kildin Saami, Pite Saami, Skolt Saami.
- Other Uralic languages: Erzya, Finnish, Hill Mari, Ingrian, Khanty, Kven, Komi, Livonian, Meadow Mari, Moksha, Nenets, Nganasan, Olonetsian, Udmurt, Veps.
- Other languages: Buriat, Cornish, Faroese, Greenlandic, Iñupiaq, Northern Haida, Ojibwe, Plains Cree, Russian.
ชาวสก็อตเกลิค
gla :: Gàidhlig
- aspell-gd - Scottish Gaelic dictionary for aspell.
- briathrachan - This is the source code to Briathrachan, a Gaelic-English dictionary app for iOS.
- gaidhlig - NLP resources for Scottish Gaelic, mainly in support of gd2ga/ga2gd MT engines.
- gd-fcfg - Context-free feature-based grammar of Scottish Gaelic in the NLTK format.
- gdbank - Some tools and resources for natural language processing of Scottish Gaelic. https://www.tantallon.org.uk/cggblog/.
- hunspell-gd - Files for building Scottish Gaelic spell checkers.
Secwepemctsín
shs :: Secwepemctsín
- secwepemctsnem - A project to help people learn Secwepemctsín.
โซมาเลีย
som :: Soomaaliga
- somorph - Somali morphological and syntactic analyzers and generators built on XFST and VISL-CG Constraint Grammar. Up to date version checked in on Giellatekno's repository.
- qaamuus.net morphologically aware dictionary based on lexical resources found online, and the somali morphology.
Tigrinya
tir :: ትግርኛ
- HornMorpho - morphological analysis and generation of Amharic and Oromo verbs and nouns and Tigrinya verbs.
Uralic
urj :: Uralic languages
- UralicNLP - A Python library for processing Uralic languages (Finnish, Skolt Sami, Erzya, Moksha, Komi-Zyrian and so on). The library provides an easy programmatic access to Giellatekno resources such as FST morphology and CG disambiguators. Other functionalities include UD parser, API for the Online Dictionary of Uralic Languages and interface to SemFi and SemUr semantic databases. The library is under active development and new features are added from time to time.
ซูลู
zul :: zulu
- Ukwabelana An open-source morphological Zulu corpus
ใบอนุญาต
© Richard Littauer 2014-2017