Masakhane เป็นความพยายามในการวิจัยสำหรับ NLP สำหรับภาษาแอฟริกาที่เป็นโอเพ่นซอร์สทั่วทั้งทวีปกระจายและออนไลน์ พื้นที่เก็บข้อมูล GitHub นี้มีข้อมูลรหัสผลลัพธ์และการวิจัยสำหรับการสร้างผลลัพธ์ NLP พื้นฐานแบบเปิดสำหรับภาษาแอฟริกา
เว็บไซต์: masakhane.io
สำหรับแอฟริกา : เพื่อสร้างและอำนวยความสะดวกให้กับชุมชนของนักวิจัย NLP เชื่อมต่อและเติบโตกระตุ้นและแบ่งปันการวิจัยเพิ่มเติมสร้างเครื่องมือที่เป็นประโยชน์สำหรับการใช้งานในรัฐบาลการแพทย์วิทยาศาสตร์และการศึกษาเพื่อเปิดใช้งานการเก็บรักษาภาษาและเพิ่มการมองเห็นและความเกี่ยวข้องทั่วโลก
สำหรับการวิจัย NLP : เพื่อสร้างชุดข้อมูลและเครื่องมือเพื่ออำนวยความสะดวกในการวิจัย NLP เกี่ยวกับภาษาแอฟริกาและเพื่อก่อให้เกิดปัญหาการวิจัยใหม่เพื่อเสริมสร้างภูมิทัศน์การวิจัย NLP
สำหรับชุมชนนักวิจัยระดับโลก : เพื่อค้นหาแนวทางปฏิบัติที่ดีที่สุดสำหรับการวิจัยแบบกระจายที่จะนำไปใช้โดยชุมชนการวิจัยที่เกิดขึ้นใหม่
มีหลายวิธีในการมีส่วนร่วมใน Masakhane
ต้องการรายละเอียดเพิ่มเติม? ตรวจสอบความคิดริเริ่มปัจจุบันของเรา
เข้าร่วมหย่อนของเรา
ขอเข้าร่วมกลุ่ม Google ของเรา
นี่คือเพื่อให้เราสามารถนำเสนอคุณบนหน้าเว็บของเรา masakhane.io กรุณาส่งอีเมลไปที่ [email protected] ต่อไปนี้:
โปรดอดทนรอการตอบกลับผ่านที่อยู่อีเมลของเราเราอยู่เบื้องหลังการบริหารของเราในช่วงเวลาของ COVID-19
โดยทั่วไปหากคุณมีประสบการณ์การเขียนโปรแกรมเราขอแนะนำให้คุณเริ่มต้นการเดินทางกับ Masakhane โดยการสร้างพื้นฐานสำหรับภาษาของคุณ รู้สึกประหม่าที่จะส่งหรือไม่แน่ใจว่าจะเริ่มต้นที่ไหน? โปรดเข้าร่วมการประชุมประจำสัปดาห์ของเราและเราจะจับคู่กับคุณกับที่ปรึกษา!
เรามีตัวอย่างโน้ตบุ๊ก colab ซึ่งฝึกอบรมแบบจำลองสำหรับการแปลภาษาอังกฤษเป็นซูลู คุณสามารถเลือกได้โดยไปที่ส่วน GitHub เมื่อเปิดโครงการใหม่
นี่เป็นความท้าทายที่ยิ่งใหญ่ แต่โชคดีที่เรามีสถานที่เริ่มต้น! ที่ ACL 2019 บทความนี้ได้รับการตีพิมพ์ เรื่องสั้น? ปรากฎว่าชุมชนพยานพระยะโฮวาได้แปลเอกสารมากมายและไม่ใช่ทั้งหมดที่เป็นศาสนา และการเป็นตัวแทนภาษาของพวกเขามีความหลากหลาย
ตรวจสอบสเปรดชีตนี้ที่นี่เพื่อดูว่าภาษาของคุณเป็นจุดเด่นหรือไม่จากนั้นไปที่ Opus เพื่อค้นหาลิงก์ไปยังข้อมูล: http://opus.nlpl.eu/jw300.php
นอกจากนี้เรายังมีสคริปต์สำหรับการดาวน์โหลดที่ง่ายและการประมวลผล BPE ของข้อมูล JW300 จาก Opus: jw300_utils/get_jw300.py มันต้องมีการติดตั้งแพ็คเกจ Opustools-PKG Python ตัวอย่าง: สำหรับ dowloading และการประมวลผลล่วงหน้า ACHOLI (ACH) และส่วน Nyaneka (NYK) ของ JW300 โทรหาสคริปต์เช่นนี้: python get_jw300.py ach nyk --output_dir jw300
จากนั้นเรายังมีตัวเลือกบางอย่าง! ชุมชนของเรากำลังค้นหากว้างและไกล! เข้าร่วม Slack และ Google Group ของเราเพื่อหารือเกี่ยวกับวิธีการส่งต่อ!
ขั้นตอนต่อไปของคุณคือการใช้ชุดข้อมูล JW300 ในสมุดบันทึก colab และเรียกใช้ คำแนะนำส่วนใหญ่อยู่ในสมุดบันทึกเอง เรากำลังปรับปรุงสมุดบันทึกนั้นอย่างต่อเนื่องและเปิดให้คำแนะนำใด ๆ พยายามดิ้นรนเพื่อไป? จากนั้นมาทำงานร่วมกันเพื่อสร้างสมุดบันทึกที่ใช้งานง่ายกว่ากัน! สร้างปัญหา GitHub หรือส่งอีเมลถึงเรา!
อัศจรรย์! คุณสร้างพื้นฐานแรกของคุณ ตอนนี้เราต้องได้รับรหัสและข้อมูลและผลลัพธ์ในที่เก็บ GitHub นี้
เพื่อให้เราพิจารณาอย่างเป็นทางการว่าการส่งผลลัพธ์ของคุณเราจำเป็นต้องมีสองสิ่ง:
สมุดบันทึกที่จะเรียกใช้รหัส สมุดบันทึกจะต้องทำงานในบัญชีบุคคลอื่นและข้อมูลที่ใช้ควรเข้าถึงได้ในที่สาธารณะ (เช่นถ้าฉันดาวน์โหลดสมุดบันทึกและเรียกใช้มันจะต้องใช้งานได้ - ดังนั้นไม่ควรใช้ไฟล์ส่วนตัวใด ๆ ) หากคุณสงสัยว่าจะทำอย่างไรอย่ากลัว! วางสายเราและเราจะทำงานร่วมกันเพื่อให้แน่ใจว่าการส่งนั้นดีทั้งหมด! -
ชุดทดสอบ - เพื่อทำซ้ำและทดสอบกับผลลัพธ์ของคุณเราจำเป็นต้องมีชุดทดสอบที่บันทึกไว้ที่อัพโหลดแยกกัน
readme.md ที่อธิบาย (a) ข้อมูลที่ใช้ - โดยเฉพาะอย่างยิ่งหากเป็นการรวมกันของแหล่งที่มา (b) การเปลี่ยนแปลงที่น่าสนใจใด ๆ ในแบบจำลอง (c) อาจวิเคราะห์บางประโยคของโมเดลสุดท้าย
โมเดลเอง สิ่งนี้สามารถอยู่ในรูปแบบของลิงค์ Google Drive หรือ Dropbox เราจะหาบ้านสำหรับนางแบบที่ผ่านการฝึกอบรมของเราเร็ว ๆ นี้ สำหรับแบบจำลองที่จะใช้สำหรับการถ่ายโอนการเรียนรู้การฝึกอบรมเพิ่มเติมหรือปรับใช้คุณต้องให้:
.ckpt )src_vocab.txt , trg_vocab.txt )config.yaml )ผลลัพธ์ - คะแนนรถไฟและชุดทดสอบ Bleu
เราจะขยายเทคนิคการวิเคราะห์ของเราต่อไปดังนั้นจึงเป็นเรื่องสำคัญอย่างยิ่งที่เรามีสำเนาของแบบจำลองและชุดทดสอบในขณะนี้ดังนั้นเราไม่จำเป็นต้องรันการฝึกอบรมอีกครั้งเพื่อทำการวิเคราะห์
เมื่อคุณมีทั้งหมดข้างต้นโปรดสร้างคำขอดึงลงในที่เก็บ ดูแนวทางที่นี่
ดูนี่เป็นตัวอย่างสำหรับโครงสร้างการมีส่วนร่วมของคุณ
โครงสร้าง:
/benchmarks
/<src-lang>-<tgt-lang>
/<technique> -- this could be "jw300-baseline" or "fine-tuned-baseline" or "nig-newspaper-dataset"
- notebook.ipynb
- README.md
- test.src
- test.tgt
- results.txt
- src_vocab.txt
- trg_vocab.txt
- src.bpe
- [trg.bpe if the bpe model is not joint with src]
- config.yaml
- any other files, if you have any
ตัวอย่าง:
/benchmarks
/en-xh
/xhnavy-data-baseline
- notebook.ipynb
- README.md
- test.xh
- test.en
- results.txt
- src_vocab.txt
- trg_vocab.txt
- en-xh.4000.bpe
- config.yaml
- preprocessing.py
นี่คือลิงค์ไปยังคำขอดึงที่มีสิ่งที่เกี่ยวข้อง
รู้สึกกังวลเกี่ยวกับการมีส่วนร่วมคำขอดึงครั้งแรกของคุณหรือไม่แน่ใจว่าจะดำเนินการอย่างไร? โปรดอย่าท้อแท้! ส่งอีเมลถึงเราหรือข้อความหย่อนและเราจะทำงานร่วมกันเพื่อรับเงินบริจาคของคุณในรูปเรือ!
เย็น! ดังนั้นจึงมีหลายวิธีในการปรับปรุงผลลัพธ์ เราได้เพิ่มจำนวนเหล่านี้ในเอกสารนี้ มีไอเดียอื่น ๆ ? วางสายหรือส่ง PR!
เราต้องการเน้นว่าไม่มีรุ่นที่ผ่านการฝึกอบรมใดที่เหมาะสำหรับการใช้งานการผลิต ในบทความของเราที่นี่เราสำรวจเอฟเฟกต์ประสิทธิภาพของการฝึกอบรมรูปแบบดังกล่าวในชุดข้อมูล JW300 - โมเดลยังไม่สามารถพูดคุยกับโดเมนที่ไม่ใช่ศาสนาได้ ตามกฎแล้วเราไม่ควรปรับใช้โมเดล NLP ในโดเมนที่ไม่ได้รับการฝึกฝน และแม้ว่าจะได้รับการฝึกฝนในโดเมนที่เกี่ยวข้อง แต่ควรวิเคราะห์แบบจำลองในรายละเอียดเพื่อทำความเข้าใจอคติและอันตรายที่อาจเกิดขึ้น แบบจำลองเหล่านี้มีจุดมุ่งหมายเพื่อทำหน้าที่เป็น งานที่กำลังดำเนินการ เพื่อกระตุ้นการวิจัยมากขึ้นและเพื่อให้เข้าใจถึงความล้มเหลวของระบบดังกล่าวได้ดีขึ้น
ดูจรรยาบรรณ
bibtex
@article{nekoto2020participatory,
title={Participatory research for low-resourced machine translation: A case study in african languages},
author={{$forall$}, { } and Nekoto, Wilhelmina and Marivate, Vukosi and Matsila, Tshinondiwa and Fasubaa, Timi and Kolawole, Tajudeen and Fagbohungbe, Taiwo and Akinola, Solomon Oluwole and Muhammad, Shamsuddee Hassan and Kabongo, Salomon and Osei, Salomey and others},
journal={Findings of EMNLP},
year={2020}
}