Download masakhane mt - Unduh Kode Sumber masakhane mt

masakhane mt

Kode sumber lainnya

1.0.0

Unduh

Masakhane - Koleksi hidup proyek NLP untuk orang Afrika, oleh orang Afrika

Masakhane adalah upaya penelitian untuk NLP untuk bahasa Afrika yang open source, di seluruh benua, didistribusikan dan online. Repositori GitHub ini menampung data, kode, hasil, dan penelitian untuk membangun hasil NLP baseline terbuka untuk bahasa Afrika.

Situs web: Masakhane.io

Sasaran

Untuk Afrika : Untuk membangun dan memfasilitasi komunitas peneliti NLP, menghubungkan dan menumbuhkannya, memacu dan berbagi penelitian lebih lanjut, membangun alat yang bermanfaat untuk aplikasi dalam pemerintahan, kedokteran, sains dan pendidikan, untuk memungkinkan pelestarian bahasa dan meningkatkan visibilitas dan relevansi globalnya.
Untuk Penelitian NLP : Untuk membangun set data dan alat untuk memfasilitasi penelitian NLP tentang bahasa Afrika, dan untuk menimbulkan masalah penelitian baru untuk memperkaya lanskap penelitian NLP.
Untuk komunitas peneliti global : untuk menemukan praktik terbaik untuk penelitian terdistribusi, untuk diterapkan oleh komunitas penelitian lain yang muncul.

Hall of Fame untuk kontributor kami

Kemajuan

Lihat pra-cetak kami yang akan diterbitkan di temuan EMNLP 2020 di sini
Lihatlah tolok ukur terjemahan mesin yang diajukan kami di sini! Tidak dapat melihat bahasa Anda? Harap kirimkan tolok ukur!
Lihatlah makalah kami yang akan diterbitkan di AfricanLP Workshop @ ICLR 2020
Lihat makalah yang ditulis oleh peserta kami di sini
Temukan lebih banyak tentang inisiatif kami saat ini
Lihatlah daftar dokumen komunitas kami
Baca catatan pertemuan mingguan kami
Ikuti publikasi kami di Medium

Bagaimana saya bisa berkontribusi?

Ada banyak cara untuk berkontribusi pada Masakhane .

Latih model - Kontribusi model terlatih dan kode terkait untuk bahasa Anda
Analisis - Kontribusi analisis data/model untuk setiap bahasa Afrika. Anda tidak memerlukan pengalaman teknis untuk ini! Jika Anda seorang ahli bahasa, kami dapat memasangkan Anda dengan praktisi terjemahan mesin dan Anda dapat membantu berkontribusi analisis
Data - Membantu membangun atau menemukan set data untuk bahasa Anda
Dokumentasi - Bantu mendokumentasikan diskusi kami, kemajuan. Ini sangat dibutuhkan. Atau berkontribusi pada dokumentasi "notebook" dasar yang akan meningkatkan pengalaman orang lain
Mentorship - Berikan saran atau bantuan model untuk bahasa dan set data mereka, atau membantu orang memulai
Admin - Bekerja dengan begitu banyak peneliti bisa menjadi tantangan! Bantu tugas administratif
Hitung - Bantuan dengan infrastruktur dan komputasi! Apakah Anda memiliki komputasi cadangan untuk disumbangkan? Beri tahu kami! Kami selalu mencari lebih banyak!
Brainstorm bergabung dengan pertemuan mingguan kami, berikan saran atau ide
Bercerita - Ceritakan kisah kami kepada dunia dengan melakukan pembicaraan tentang komunitas, berkontribusi pada publikasi medium kami, atau terlibat dengan outlet media
MLOPS & ML Engineering - Apakah Anda menikmati menggali sisi MLOPS dari Machine Learning? Apakah Anda seorang pengembang perangkat lunak yang ingin mengasah kemampuan insinyur ML Anda? Bergabunglah dengan kami untuk membantu membangun alat untuk mendukung reproduksi, pengumpulan data, dan berbagi model!

Ingin detail lebih lanjut? Lihat inisiatif kami saat ini

Bagaimana cara saya bergabung?

Bergabunglah dengan Slack kami
Permintaan untuk bergabung dengan grup google kami
Ini agar kami dapat menampilkan Anda di halaman web kami masakhane.io. Silakan email berikut ke [email protected]:
- Nama lengkap Anda
- Tautan media sosial yang disukai
- Bahasa yang akan Anda kerjakan (atau spesialisasi umum yang relevan - jika Anda seorang ahli dalam terjemahan mesin dan - ingin meningkatkan komunitas melalui itu)
- Sebuah gambar
- Afiliasi dan peran Anda.

Harap bersabar dengan tanggapan melalui alamat email kami, kami sangat tertinggal dari administrasi kami, pada saat COVID-19.

Membangun Model Terjemahan Mesin Pertama Anda

Biasanya, jika Anda memiliki pengalaman pemrograman, kami mendorong Anda untuk memulai perjalanan Anda dengan Masakhane, dengan membangun garis dasar untuk bahasa Anda. Merasa gugup untuk tunduk atau tidak yakin harus mulai dari mana? Silakan bergabung dengan pertemuan mingguan kami dan kami akan memasangkan Anda dengan seorang mentor!

1. Lihatlah kode contoh

Kami memiliki contoh Colab Notebook yang melatih model untuk terjemahan bahasa Inggris-ke-zulu. Anda dapat memilihnya dengan pergi ke bagian GitHub saat membuka proyek baru.

2. Menemukan data untuk bahasa saya?!

Ini adalah tantangan besar, tetapi untungnya kami memiliki tempat untuk memulai! Di ACL 2019, makalah ini diterbitkan. Cerita pendeknya? Ternyata komunitas saksi Yehuwa telah menerjemahkan banyak dokumen dan tidak semuanya religius. Dan representasi bahasa mereka beragam.

Lihatlah spreadsheet ini di sini untuk melihat apakah bahasa Anda ditampilkan, lalu buka Opus untuk menemukan tautan ke data: http://opus.nlpl.eu/jw300.php

Kami juga menyediakan skrip untuk mudah diunduh dan preprossi BPE data JW300 dari Opus: jw300_utils/get_jw300.py . Ini membutuhkan pemasangan paket Python Opustools-PKG. Contoh: Untuk dowloading dan pra-pemrosesan porsi Acholi (ACH) dan Nyaneka (NYK) dari JW300, hubungi skrip seperti ini: python get_jw300.py ach nyk --output_dir jw300

Tidak dapat menemukan bahasa Anda dalam dataset JW300?

Maka kami masih memiliki beberapa opsi! Komunitas kami telah mencari secara luas dan jauh! Bergabunglah dengan Slack dan Google Group kami untuk membahas jalan ke depan!

3. Jalankan notebook!

Langkah Anda berikutnya adalah menggunakan dataset JW300 di Colab Notebook dan menjalankannya. Sebagian besar saran ada di dalam buku catatan itu sendiri. Kami terus meningkatkan buku catatan itu dan terbuka untuk rekomendasi apa pun. Berjuang untuk pergi? Lalu mari kita bekerja sama untuk membangun buku catatan yang lebih mudah digunakan! Buat masalah github atau email kami!

4. Sudah selesai! Saya punya hasil! Sekarang apa?

Luar biasa! Anda membuat baseline pertama Anda. Sekarang kita perlu mendapatkan kode dan data dan hasilnya ke dalam repositori github ini

Agar kami dapat mempertimbangkan hasil pengiriman hasil Anda, kami membutuhkan beberapa hal:

Notebook yang akan menjalankan kode. Notebook harus berjalan pada akun orang lain dan data yang digunakannya harus dapat diakses secara publik (yaitu jika saya mengunduh notebook dan menjalankannya, itu harus berfungsi - jadi tidak boleh menggunakan file pribadi apa pun). Jika Anda bertanya -tanya bagaimana melakukan ini, jangan takut! Kirimkan kami satu baris dan kami akan bekerja sama untuk memastikan kiriman semuanya baik! :)
Set Tes - Untuk mereplikasi ini dan menguji hasil Anda, kami perlu set tes yang disimpan diunggah secara terpisah.
Sebuah readme.md yang menggambarkan (a) data yang digunakan - esp penting jika itu kombinasi sumber (b) setiap perubahan menarik pada model (c) mungkin beberapa analisis beberapa kalimat dari model akhir
Model itu sendiri. Ini bisa dalam bentuk tautan Google Drive atau Dropbox. Kami akan segera menemukan rumah untuk model terlatih kami. Untuk model yang akan digunakan untuk pembelajaran transfer, lebih lanjut dilatih, atau digunakan, Anda perlu menyediakan:
1. pos pemeriksaan dengan parameter (file .ckpt ),
2. Kosakata sumber dan target ( src_vocab.txt , trg_vocab.txt ),
3. file konfigurasi ( config.yaml ),
4. dan jika berlaku: kode atau skrip BPE untuk pipa pra-pemrosesan Anda. Joey NMT menyimpan tiga pertama di direktori model.
Hasilnya - skor kereta, dev, dan tes set bleu

Kami akan semakin memperluas teknik analisis kami sehingga sangat penting kami memiliki salinan model dan set tes sekarang sehingga kami tidak perlu menjalankan kembali pelatihan hanya untuk melakukan analisis

Setelah Anda memiliki semua hal di atas, silakan buat permintaan tarik ke dalam repositori. Lihat pedoman di sini.

Struktur PR saya:

Lihat juga ini sebagai contoh untuk struktur kontribusi Anda

Struktur:

 /benchmarks
 /<src-lang>-<tgt-lang>
   /<technique> -- this could be "jw300-baseline" or "fine-tuned-baseline" or "nig-newspaper-dataset"
     - notebook.ipynb
     - README.md
     - test.src
     - test.tgt
     - results.txt
     - src_vocab.txt
     - trg_vocab.txt
     - src.bpe
     - [trg.bpe if the bpe model is not joint with src]
     - config.yaml
     - any other files, if you have any

Contoh:

 /benchmarks
  /en-xh
    /xhnavy-data-baseline
      - notebook.ipynb
      - README.md
      - test.xh
      - test.en
      - results.txt
      - src_vocab.txt
      - trg_vocab.txt
      - en-xh.4000.bpe
      - config.yaml
      - preprocessing.py

Berikut adalah tautan ke permintaan tarik yang memiliki hal -hal yang relevan.

Merasa gugup tentang menyumbangkan permintaan tarik pertama Anda atau tidak yakin bagaimana melanjutkan? Tolong jangan merasa berkecil hati! Kirimi kami email atau pesan yang malas dan kami akan bekerja sama untuk mendapatkan kontribusi Anda dalam bentuk kapal!

5. Saya punya garis dasar. Apa yang harus saya lakukan untuk memperbaikinya?

Dingin! Jadi ada banyak cara untuk meningkatkan hasil. Kami telah menghambat beberapa di antaranya dalam dokumen ini. Punya ide lain? Kirimkan kami satu baris atau kirimkan PR!

Catatan tentang penyebaran model

Kami ingin menyoroti bagaimana tidak ada model terlatih yang cocok untuk penggunaan produksi . Dalam makalah kami di sini kami mengeksplorasi efek kinerja dari pelatihan model seperti pada dataset JW300 - model masih tidak dapat menggeneralisasi ke domain yang tidak beragama. Sebagai aturan, seseorang tidak boleh menggunakan model NLP dalam domain yang belum dilatih. Dan bahkan jika dilatih pada domain yang relevan, model harus dianalisis secara rinci untuk memahami bias dan potensi bahaya . Model -model ini bertujuan untuk berfungsi sebagai pekerjaan yang sedang berjalan untuk memacu lebih banyak penelitian, dan untuk lebih memahami kegagalan sistem tersebut.

Kode Etik

Lihat Kode Etik

Referensi

Bibtex

 @article{nekoto2020participatory,
  title={Participatory research for low-resourced machine translation: A case study in african languages},
  author={{$forall$}, { } and Nekoto, Wilhelmina and Marivate, Vukosi and Matsila, Tshinondiwa and Fasubaa, Timi and Kolawole, Tajudeen and Fagbohungbe, Taiwo and Akinola, Solomon Oluwole and Muhammad, Shamsuddee Hassan and Kabongo, Salomon and Osei, Salomey and others},
  journal={Findings of EMNLP},
  year={2020}
}

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-04-16
ukuran 214.25MB
Berasal dari Github

Aplikasi Terkait

mt manajer versi beta

2024-09-25
dunia MT

2023-08-18
Aplikasi sepeda Meituan MT

2023-07-27
Foto MT versi Android

2023-05-18
MT kembali

2023-04-18
Pencuri Gambar MT

2009-05-09

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua