ดาวน์โหลด masakhane mt - ดาวน์โหลดซอร์สโค้ด masakhane mt

masakhane mt

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

Masakhane - ชุดสะสมของโครงการ NLP สำหรับชาวแอฟริกันโดยชาวแอฟริกัน

Masakhane เป็นความพยายามในการวิจัยสำหรับ NLP สำหรับภาษาแอฟริกาที่เป็นโอเพ่นซอร์สทั่วทั้งทวีปกระจายและออนไลน์ พื้นที่เก็บข้อมูล GitHub นี้มีข้อมูลรหัสผลลัพธ์และการวิจัยสำหรับการสร้างผลลัพธ์ NLP พื้นฐานแบบเปิดสำหรับภาษาแอฟริกา

เว็บไซต์: masakhane.io

เป้าหมาย

สำหรับแอฟริกา : เพื่อสร้างและอำนวยความสะดวกให้กับชุมชนของนักวิจัย NLP เชื่อมต่อและเติบโตกระตุ้นและแบ่งปันการวิจัยเพิ่มเติมสร้างเครื่องมือที่เป็นประโยชน์สำหรับการใช้งานในรัฐบาลการแพทย์วิทยาศาสตร์และการศึกษาเพื่อเปิดใช้งานการเก็บรักษาภาษาและเพิ่มการมองเห็นและความเกี่ยวข้องทั่วโลก
สำหรับการวิจัย NLP : เพื่อสร้างชุดข้อมูลและเครื่องมือเพื่ออำนวยความสะดวกในการวิจัย NLP เกี่ยวกับภาษาแอฟริกาและเพื่อก่อให้เกิดปัญหาการวิจัยใหม่เพื่อเสริมสร้างภูมิทัศน์การวิจัย NLP
สำหรับชุมชนนักวิจัยระดับโลก : เพื่อค้นหาแนวทางปฏิบัติที่ดีที่สุดสำหรับการวิจัยแบบกระจายที่จะนำไปใช้โดยชุมชนการวิจัยที่เกิดขึ้นใหม่

Hall of Fame สำหรับผู้มีส่วนร่วมของเรา

ความคืบหน้า

ดูการพิมพ์ก่อนการพิมพ์ของเราที่จะเผยแพร่ตามผลการวิจัยของ EMNLP 2020 ที่นี่
ดูเกณฑ์มาตรฐานการแปลของเครื่องที่ส่งมาที่นี่! ไม่เห็นภาษาของคุณ? กรุณาส่งเกณฑ์มาตรฐาน!
ตรวจสอบบทความของเราที่จะเผยแพร่ที่ AfricanLP Workshop @ ICLR 2020
ตรวจสอบเอกสารที่เขียนโดยผู้เข้าร่วมของเราที่นี่
ค้นหาข้อมูลเพิ่มเติมเกี่ยวกับความคิดริเริ่มปัจจุบันของเรา
ดูรายการเอกสารชุมชนของเรา
อ่านบันทึกการประชุมประจำสัปดาห์ของเรา
ติดตามสิ่งพิมพ์ของเราในสื่อ

ฉันจะมีส่วนร่วมได้อย่างไร?

มีหลายวิธีในการมีส่วนร่วมใน Masakhane

ฝึกอบรมแบบจำลอง - มีส่วนร่วมในรูปแบบที่ผ่านการฝึกอบรมและรหัสที่เกี่ยวข้องสำหรับภาษาของคุณ
การวิเคราะห์ - มีส่วนร่วมในการวิเคราะห์ข้อมูล/แบบจำลองสำหรับภาษาแอฟริกาใด ๆ คุณไม่ต้องการประสบการณ์ทางเทคนิคใด ๆ สำหรับสิ่งนี้! หากคุณเป็นนักภาษาศาสตร์เราสามารถจับคู่คุณกับผู้ฝึกการแปลด้วยเครื่องและคุณสามารถช่วยการวิเคราะห์
ข้อมูล - ช่วยสร้างหรือค้นหาชุดข้อมูลสำหรับภาษาของคุณ
เอกสาร - ช่วยเอกสารการอภิปรายของเราความคืบหน้า สิ่งนี้จำเป็นมาก หรือมีส่วนร่วมในเอกสารของ "สมุดบันทึก" ฐานที่จะปรับปรุงประสบการณ์ของผู้อื่น
การให้คำปรึกษา - ให้คำแนะนำหรือช่วยเหลือแบบจำลองสำหรับภาษาและชุดข้อมูลของพวกเขาหรือช่วยให้ผู้คนเริ่มต้นใช้งาน
ผู้ดูแลระบบ - การทำงานกับนักวิจัยจำนวนมากอาจเป็นเรื่องท้าทาย! ช่วยงานด้านการดูแลระบบ
คำนวณ - ช่วยเกี่ยวกับโครงสร้างพื้นฐานและการคำนวณ! คุณมีการคำนวณสำรองเพื่อบริจาคหรือไม่? แจ้งให้เราทราบ! เรามักจะมองหามากขึ้น!
ระดมสมอง เข้าร่วมการประชุมประจำสัปดาห์ของเราให้คำแนะนำหรือแนวคิด
การเล่าเรื่อง - บอกเล่าเรื่องราวของเราสู่โลกด้วยการพูดคุยเกี่ยวกับชุมชนมีส่วนร่วมในการตีพิมพ์สื่อกลางของเราหรือมีส่วนร่วมกับสื่อ
MLOPS & ML Engineering - คุณสนุกกับการเจาะลึกลงไปในด้าน MLOPS ของการเรียนรู้ของเครื่องจักรหรือไม่? คุณเป็นนักพัฒนาซอฟต์แวร์ที่ต้องการฝึกฝนความสามารถของวิศวกร ML หรือไม่? เข้าร่วมกับเราเพื่อช่วยสร้างเครื่องมือเพื่อสนับสนุนการทำซ้ำการรวบรวมข้อมูลและการแบ่งปันแบบจำลอง!

ต้องการรายละเอียดเพิ่มเติม? ตรวจสอบความคิดริเริ่มปัจจุบันของเรา

ฉันจะเข้าร่วมได้อย่างไร?

เข้าร่วมหย่อนของเรา
ขอเข้าร่วมกลุ่ม Google ของเรา
นี่คือเพื่อให้เราสามารถนำเสนอคุณบนหน้าเว็บของเรา masakhane.io กรุณาส่งอีเมลไปที่ [email protected] ต่อไปนี้:
- ชื่อเต็มของคุณ
- ลิงค์โซเชียลมีเดียที่ต้องการ
- ภาษาที่คุณจะทำงาน (หรือพิเศษที่เกี่ยวข้องทั่วไปของคุณ - หากคุณเป็นผู้เชี่ยวชาญในการแปลเครื่องและ - ต้องการเพิ่มชุมชนผ่านสิ่งนั้น)
- ภาพ
- ความร่วมมือและบทบาทของคุณ

โปรดอดทนรอการตอบกลับผ่านที่อยู่อีเมลของเราเราอยู่เบื้องหลังการบริหารของเราในช่วงเวลาของ COVID-19

การสร้างรูปแบบการแปลเครื่องแรกของคุณ

โดยทั่วไปหากคุณมีประสบการณ์การเขียนโปรแกรมเราขอแนะนำให้คุณเริ่มต้นการเดินทางกับ Masakhane โดยการสร้างพื้นฐานสำหรับภาษาของคุณ รู้สึกประหม่าที่จะส่งหรือไม่แน่ใจว่าจะเริ่มต้นที่ไหน? โปรดเข้าร่วมการประชุมประจำสัปดาห์ของเราและเราจะจับคู่กับคุณกับที่ปรึกษา!

1. ดูที่รหัสตัวอย่าง

เรามีตัวอย่างโน้ตบุ๊ก colab ซึ่งฝึกอบรมแบบจำลองสำหรับการแปลภาษาอังกฤษเป็นซูลู คุณสามารถเลือกได้โดยไปที่ส่วน GitHub เมื่อเปิดโครงการใหม่

2. การค้นหาข้อมูลสำหรับภาษาของฉัน!

นี่เป็นความท้าทายที่ยิ่งใหญ่ แต่โชคดีที่เรามีสถานที่เริ่มต้น! ที่ ACL 2019 บทความนี้ได้รับการตีพิมพ์ เรื่องสั้น? ปรากฎว่าชุมชนพยานพระยะโฮวาได้แปลเอกสารมากมายและไม่ใช่ทั้งหมดที่เป็นศาสนา และการเป็นตัวแทนภาษาของพวกเขามีความหลากหลาย

ตรวจสอบสเปรดชีตนี้ที่นี่เพื่อดูว่าภาษาของคุณเป็นจุดเด่นหรือไม่จากนั้นไปที่ Opus เพื่อค้นหาลิงก์ไปยังข้อมูล: http://opus.nlpl.eu/jw300.php

นอกจากนี้เรายังมีสคริปต์สำหรับการดาวน์โหลดที่ง่ายและการประมวลผล BPE ของข้อมูล JW300 จาก Opus: jw300_utils/get_jw300.py มันต้องมีการติดตั้งแพ็คเกจ Opustools-PKG Python ตัวอย่าง: สำหรับ dowloading และการประมวลผลล่วงหน้า ACHOLI (ACH) และส่วน Nyaneka (NYK) ของ JW300 โทรหาสคริปต์เช่นนี้: python get_jw300.py ach nyk --output_dir jw300

ไม่พบภาษาของคุณในชุดข้อมูล JW300?

จากนั้นเรายังมีตัวเลือกบางอย่าง! ชุมชนของเรากำลังค้นหากว้างและไกล! เข้าร่วม Slack และ Google Group ของเราเพื่อหารือเกี่ยวกับวิธีการส่งต่อ!

3. เรียกใช้สมุดบันทึก!

ขั้นตอนต่อไปของคุณคือการใช้ชุดข้อมูล JW300 ในสมุดบันทึก colab และเรียกใช้ คำแนะนำส่วนใหญ่อยู่ในสมุดบันทึกเอง เรากำลังปรับปรุงสมุดบันทึกนั้นอย่างต่อเนื่องและเปิดให้คำแนะนำใด ๆ พยายามดิ้นรนเพื่อไป? จากนั้นมาทำงานร่วมกันเพื่อสร้างสมุดบันทึกที่ใช้งานง่ายกว่ากัน! สร้างปัญหา GitHub หรือส่งอีเมลถึงเรา!

4. เสร็จแล้ว! ฉันมีผลลัพธ์! ตอนนี้อะไร?

อัศจรรย์! คุณสร้างพื้นฐานแรกของคุณ ตอนนี้เราต้องได้รับรหัสและข้อมูลและผลลัพธ์ในที่เก็บ GitHub นี้

เพื่อให้เราพิจารณาอย่างเป็นทางการว่าการส่งผลลัพธ์ของคุณเราจำเป็นต้องมีสองสิ่ง:

สมุดบันทึกที่จะเรียกใช้รหัส สมุดบันทึกจะต้องทำงานในบัญชีบุคคลอื่นและข้อมูลที่ใช้ควรเข้าถึงได้ในที่สาธารณะ (เช่นถ้าฉันดาวน์โหลดสมุดบันทึกและเรียกใช้มันจะต้องใช้งานได้ - ดังนั้นไม่ควรใช้ไฟล์ส่วนตัวใด ๆ ) หากคุณสงสัยว่าจะทำอย่างไรอย่ากลัว! วางสายเราและเราจะทำงานร่วมกันเพื่อให้แน่ใจว่าการส่งนั้นดีทั้งหมด! -
ชุดทดสอบ - เพื่อทำซ้ำและทดสอบกับผลลัพธ์ของคุณเราจำเป็นต้องมีชุดทดสอบที่บันทึกไว้ที่อัพโหลดแยกกัน
readme.md ที่อธิบาย (a) ข้อมูลที่ใช้ - โดยเฉพาะอย่างยิ่งหากเป็นการรวมกันของแหล่งที่มา (b) การเปลี่ยนแปลงที่น่าสนใจใด ๆ ในแบบจำลอง (c) อาจวิเคราะห์บางประโยคของโมเดลสุดท้าย
โมเดลเอง สิ่งนี้สามารถอยู่ในรูปแบบของลิงค์ Google Drive หรือ Dropbox เราจะหาบ้านสำหรับนางแบบที่ผ่านการฝึกอบรมของเราเร็ว ๆ นี้ สำหรับแบบจำลองที่จะใช้สำหรับการถ่ายโอนการเรียนรู้การฝึกอบรมเพิ่มเติมหรือปรับใช้คุณต้องให้:
1. จุดตรวจที่มีพารามิเตอร์ (ไฟล์ .ckpt )
2. คำศัพท์แหล่งที่มาและเป้าหมาย ( src_vocab.txt , trg_vocab.txt )
3. ไฟล์กำหนดค่า ( config.yaml )
4. และถ้ามี: รหัส BPE หรือสคริปต์สำหรับการประมวลผลล่วงหน้าของคุณ Joey NMT บันทึกสามคนแรกในไดเรกทอรีโมเดล
ผลลัพธ์ - คะแนนรถไฟและชุดทดสอบ Bleu

เราจะขยายเทคนิคการวิเคราะห์ของเราต่อไปดังนั้นจึงเป็นเรื่องสำคัญอย่างยิ่งที่เรามีสำเนาของแบบจำลองและชุดทดสอบในขณะนี้ดังนั้นเราไม่จำเป็นต้องรันการฝึกอบรมอีกครั้งเพื่อทำการวิเคราะห์

เมื่อคุณมีทั้งหมดข้างต้นโปรดสร้างคำขอดึงลงในที่เก็บ ดูแนวทางที่นี่

โครงสร้างของการประชาสัมพันธ์ของฉัน:

ดูนี่เป็นตัวอย่างสำหรับโครงสร้างการมีส่วนร่วมของคุณ

โครงสร้าง:

 /benchmarks
 /<src-lang>-<tgt-lang>
   /<technique> -- this could be "jw300-baseline" or "fine-tuned-baseline" or "nig-newspaper-dataset"
     - notebook.ipynb
     - README.md
     - test.src
     - test.tgt
     - results.txt
     - src_vocab.txt
     - trg_vocab.txt
     - src.bpe
     - [trg.bpe if the bpe model is not joint with src]
     - config.yaml
     - any other files, if you have any

ตัวอย่าง:

 /benchmarks
  /en-xh
    /xhnavy-data-baseline
      - notebook.ipynb
      - README.md
      - test.xh
      - test.en
      - results.txt
      - src_vocab.txt
      - trg_vocab.txt
      - en-xh.4000.bpe
      - config.yaml
      - preprocessing.py

นี่คือลิงค์ไปยังคำขอดึงที่มีสิ่งที่เกี่ยวข้อง

รู้สึกกังวลเกี่ยวกับการมีส่วนร่วมคำขอดึงครั้งแรกของคุณหรือไม่แน่ใจว่าจะดำเนินการอย่างไร? โปรดอย่าท้อแท้! ส่งอีเมลถึงเราหรือข้อความหย่อนและเราจะทำงานร่วมกันเพื่อรับเงินบริจาคของคุณในรูปเรือ!

5. ฉันมีพื้นฐาน ฉันจะทำอย่างไรเพื่อปรับปรุง

เย็น! ดังนั้นจึงมีหลายวิธีในการปรับปรุงผลลัพธ์ เราได้เพิ่มจำนวนเหล่านี้ในเอกสารนี้ มีไอเดียอื่น ๆ ? วางสายหรือส่ง PR!

หมายเหตุเกี่ยวกับการปรับใช้แบบจำลอง

เราต้องการเน้นว่าไม่มีรุ่นที่ผ่านการฝึกอบรมใดที่เหมาะสำหรับการใช้งานการผลิต ในบทความของเราที่นี่เราสำรวจเอฟเฟกต์ประสิทธิภาพของการฝึกอบรมรูปแบบดังกล่าวในชุดข้อมูล JW300 - โมเดลยังไม่สามารถพูดคุยกับโดเมนที่ไม่ใช่ศาสนาได้ ตามกฎแล้วเราไม่ควรปรับใช้โมเดล NLP ในโดเมนที่ไม่ได้รับการฝึกฝน และแม้ว่าจะได้รับการฝึกฝนในโดเมนที่เกี่ยวข้อง แต่ควรวิเคราะห์แบบจำลองในรายละเอียดเพื่อทำความเข้าใจอคติและอันตรายที่อาจเกิดขึ้น แบบจำลองเหล่านี้มีจุดมุ่งหมายเพื่อทำหน้าที่เป็น งานที่กำลังดำเนินการ เพื่อกระตุ้นการวิจัยมากขึ้นและเพื่อให้เข้าใจถึงความล้มเหลวของระบบดังกล่าวได้ดีขึ้น

จรรยาบรรณ

ดูจรรยาบรรณ

อ้างอิง

bibtex

 @article{nekoto2020participatory,
  title={Participatory research for low-resourced machine translation: A case study in african languages},
  author={{$forall$}, { } and Nekoto, Wilhelmina and Marivate, Vukosi and Matsila, Tshinondiwa and Fasubaa, Timi and Kolawole, Tajudeen and Fagbohungbe, Taiwo and Akinola, Solomon Oluwole and Muhammad, Shamsuddee Hassan and Kabongo, Salomon and Osei, Salomey and others},
  journal={Findings of EMNLP},
  year={2020}
}

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-04-16
ขนาด 214.25MB
มาจาก Github

แอปที่เกี่ยวข้อง

เวอร์ชันเบต้าของผู้จัดการ mt

2024-09-25
เอ็มที เวิลด์

2023-08-18
แอพจักรยาน Meituan MT

2023-07-27
MT Photos เวอร์ชัน Android

2023-05-18
MT กลับมาแล้ว

2023-04-18
โจรขโมยรูปภาพ MT

2009-05-09

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด