Masakhane adalah upaya penelitian untuk NLP untuk bahasa Afrika yang open source, di seluruh benua, didistribusikan dan online. Repositori GitHub ini menampung data, kode, hasil, dan penelitian untuk membangun hasil NLP baseline terbuka untuk bahasa Afrika.
Situs web: Masakhane.io
Untuk Afrika : Untuk membangun dan memfasilitasi komunitas peneliti NLP, menghubungkan dan menumbuhkannya, memacu dan berbagi penelitian lebih lanjut, membangun alat yang bermanfaat untuk aplikasi dalam pemerintahan, kedokteran, sains dan pendidikan, untuk memungkinkan pelestarian bahasa dan meningkatkan visibilitas dan relevansi globalnya.
Untuk Penelitian NLP : Untuk membangun set data dan alat untuk memfasilitasi penelitian NLP tentang bahasa Afrika, dan untuk menimbulkan masalah penelitian baru untuk memperkaya lanskap penelitian NLP.
Untuk komunitas peneliti global : untuk menemukan praktik terbaik untuk penelitian terdistribusi, untuk diterapkan oleh komunitas penelitian lain yang muncul.
Ada banyak cara untuk berkontribusi pada Masakhane .
Ingin detail lebih lanjut? Lihat inisiatif kami saat ini
Bergabunglah dengan Slack kami
Permintaan untuk bergabung dengan grup google kami
Ini agar kami dapat menampilkan Anda di halaman web kami masakhane.io. Silakan email berikut ke [email protected]:
Harap bersabar dengan tanggapan melalui alamat email kami, kami sangat tertinggal dari administrasi kami, pada saat COVID-19.
Biasanya, jika Anda memiliki pengalaman pemrograman, kami mendorong Anda untuk memulai perjalanan Anda dengan Masakhane, dengan membangun garis dasar untuk bahasa Anda. Merasa gugup untuk tunduk atau tidak yakin harus mulai dari mana? Silakan bergabung dengan pertemuan mingguan kami dan kami akan memasangkan Anda dengan seorang mentor!
Kami memiliki contoh Colab Notebook yang melatih model untuk terjemahan bahasa Inggris-ke-zulu. Anda dapat memilihnya dengan pergi ke bagian GitHub saat membuka proyek baru.
Ini adalah tantangan besar, tetapi untungnya kami memiliki tempat untuk memulai! Di ACL 2019, makalah ini diterbitkan. Cerita pendeknya? Ternyata komunitas saksi Yehuwa telah menerjemahkan banyak dokumen dan tidak semuanya religius. Dan representasi bahasa mereka beragam.
Lihatlah spreadsheet ini di sini untuk melihat apakah bahasa Anda ditampilkan, lalu buka Opus untuk menemukan tautan ke data: http://opus.nlpl.eu/jw300.php
Kami juga menyediakan skrip untuk mudah diunduh dan preprossi BPE data JW300 dari Opus: jw300_utils/get_jw300.py . Ini membutuhkan pemasangan paket Python Opustools-PKG. Contoh: Untuk dowloading dan pra-pemrosesan porsi Acholi (ACH) dan Nyaneka (NYK) dari JW300, hubungi skrip seperti ini: python get_jw300.py ach nyk --output_dir jw300
Maka kami masih memiliki beberapa opsi! Komunitas kami telah mencari secara luas dan jauh! Bergabunglah dengan Slack dan Google Group kami untuk membahas jalan ke depan!
Langkah Anda berikutnya adalah menggunakan dataset JW300 di Colab Notebook dan menjalankannya. Sebagian besar saran ada di dalam buku catatan itu sendiri. Kami terus meningkatkan buku catatan itu dan terbuka untuk rekomendasi apa pun. Berjuang untuk pergi? Lalu mari kita bekerja sama untuk membangun buku catatan yang lebih mudah digunakan! Buat masalah github atau email kami!
Luar biasa! Anda membuat baseline pertama Anda. Sekarang kita perlu mendapatkan kode dan data dan hasilnya ke dalam repositori github ini
Agar kami dapat mempertimbangkan hasil pengiriman hasil Anda, kami membutuhkan beberapa hal:
Notebook yang akan menjalankan kode. Notebook harus berjalan pada akun orang lain dan data yang digunakannya harus dapat diakses secara publik (yaitu jika saya mengunduh notebook dan menjalankannya, itu harus berfungsi - jadi tidak boleh menggunakan file pribadi apa pun). Jika Anda bertanya -tanya bagaimana melakukan ini, jangan takut! Kirimkan kami satu baris dan kami akan bekerja sama untuk memastikan kiriman semuanya baik! :)
Set Tes - Untuk mereplikasi ini dan menguji hasil Anda, kami perlu set tes yang disimpan diunggah secara terpisah.
Sebuah readme.md yang menggambarkan (a) data yang digunakan - esp penting jika itu kombinasi sumber (b) setiap perubahan menarik pada model (c) mungkin beberapa analisis beberapa kalimat dari model akhir
Model itu sendiri. Ini bisa dalam bentuk tautan Google Drive atau Dropbox. Kami akan segera menemukan rumah untuk model terlatih kami. Untuk model yang akan digunakan untuk pembelajaran transfer, lebih lanjut dilatih, atau digunakan, Anda perlu menyediakan:
.ckpt ),src_vocab.txt , trg_vocab.txt ),config.yaml ),Hasilnya - skor kereta, dev, dan tes set bleu
Kami akan semakin memperluas teknik analisis kami sehingga sangat penting kami memiliki salinan model dan set tes sekarang sehingga kami tidak perlu menjalankan kembali pelatihan hanya untuk melakukan analisis
Setelah Anda memiliki semua hal di atas, silakan buat permintaan tarik ke dalam repositori. Lihat pedoman di sini.
Lihat juga ini sebagai contoh untuk struktur kontribusi Anda
Struktur:
/benchmarks
/<src-lang>-<tgt-lang>
/<technique> -- this could be "jw300-baseline" or "fine-tuned-baseline" or "nig-newspaper-dataset"
- notebook.ipynb
- README.md
- test.src
- test.tgt
- results.txt
- src_vocab.txt
- trg_vocab.txt
- src.bpe
- [trg.bpe if the bpe model is not joint with src]
- config.yaml
- any other files, if you have any
Contoh:
/benchmarks
/en-xh
/xhnavy-data-baseline
- notebook.ipynb
- README.md
- test.xh
- test.en
- results.txt
- src_vocab.txt
- trg_vocab.txt
- en-xh.4000.bpe
- config.yaml
- preprocessing.py
Berikut adalah tautan ke permintaan tarik yang memiliki hal -hal yang relevan.
Merasa gugup tentang menyumbangkan permintaan tarik pertama Anda atau tidak yakin bagaimana melanjutkan? Tolong jangan merasa berkecil hati! Kirimi kami email atau pesan yang malas dan kami akan bekerja sama untuk mendapatkan kontribusi Anda dalam bentuk kapal!
Dingin! Jadi ada banyak cara untuk meningkatkan hasil. Kami telah menghambat beberapa di antaranya dalam dokumen ini. Punya ide lain? Kirimkan kami satu baris atau kirimkan PR!
Kami ingin menyoroti bagaimana tidak ada model terlatih yang cocok untuk penggunaan produksi . Dalam makalah kami di sini kami mengeksplorasi efek kinerja dari pelatihan model seperti pada dataset JW300 - model masih tidak dapat menggeneralisasi ke domain yang tidak beragama. Sebagai aturan, seseorang tidak boleh menggunakan model NLP dalam domain yang belum dilatih. Dan bahkan jika dilatih pada domain yang relevan, model harus dianalisis secara rinci untuk memahami bias dan potensi bahaya . Model -model ini bertujuan untuk berfungsi sebagai pekerjaan yang sedang berjalan untuk memacu lebih banyak penelitian, dan untuk lebih memahami kegagalan sistem tersebut.
Lihat Kode Etik
Bibtex
@article{nekoto2020participatory,
title={Participatory research for low-resourced machine translation: A case study in african languages},
author={{$forall$}, { } and Nekoto, Wilhelmina and Marivate, Vukosi and Matsila, Tshinondiwa and Fasubaa, Timi and Kolawole, Tajudeen and Fagbohungbe, Taiwo and Akinola, Solomon Oluwole and Muhammad, Shamsuddee Hassan and Kabongo, Salomon and Osei, Salomey and others},
journal={Findings of EMNLP},
year={2020}
}