Kompetisi model suara kami
- Apa yang kita cari?
- Paket peserta
- Aturan
Tentang
Kami ingin melihat - dan memberi insentif! - Keragaman besar, ekuitas, dan pekerjaan sadar inklusi dilakukan dengan dataset suara umum. Kami menjalankan kompetisi model dan metode dengan tiga tema luas, ditambah kategori terbuka.
Daftarkan minat Anda
Mulailah hari ini dengan mendaftarkan minat Anda dengan formulir ini, dan Anda akan menerima paket peserta dengan bimbingan, sumber daya, saran, dan lainnya untuk membantu Anda.
Harap baca aturan lengkapnya jika Anda mempertimbangkan untuk melamar.
Paket peserta
Versi lokal dari paket peserta dapat ditemukan di Google Drive kami.
Apa yang kita cari?
Entri Anda harus berupa model atau metode keragaman, ekuitas, dan inklusi-sadar di bawah salah satu kategori berikut. Ini terutama harus memanfaatkan data suara umum Mozilla dari rilis ke -11 (September 2022). Di luar ini, kami sengaja terbuka. Namun, berikut adalah beberapa contoh ilustrasi;
| Kategori | Tentang |
|---|
| Jenis kelamin | Model STT untuk bahasa yang kurang sumber daya yang berkinerja sama baiknya untuk wanita |
| Varian, dialek atau aksen | 1) Bukti konsep untuk varian bahasa yang kurang terlayani disampaikan dengan corpus 'mainan' kecil) aksen pengklasifikasi oleh, dan untuk, sebuah komunitas |
| Metode dan ukuran | 1) Benchmark Bias Corpus 2) Metodologi Audit Dataset |
| Membuka | Dei yang menarik bekerja terutama menggunakan suara umum yang tidak sesuai dengan kategori di atas |
Penilaian akan dilakukan oleh sponsor atau orang yang ditunjuk, yang akan memiliki keleluasaan tunggal dalam menentukan pemenang berdasarkan kriteria yang sama -sama tertimbang:
- Word ERROR RATE (“WER”) - Berapa banyak kesalahan pengenalan kata yang dibuat model Anda saat digunakan pada dataset baru
- Skor WER saat diseimbangkan oleh demografi gender atau aksen (sesuai tema kompetisi)
- Utilitas - Ini adalah penilaian penilaian oleh panelis yang mengevaluasi seberapa efektif, asli, dan berguna metode atau ukuran Anda
- Nilai kebutuhan sosial / ekosistem - apakah model ini menambah nilai pada alam semesta model lain untuk bahasa yang sama. Kami tidak mendiskualifikasi pengiriman yang bukan open source, tetapi ketika mempertimbangkan nilai ekosistem di dalam rubrik yang lebih luas, kami akan mempertimbangkan lisensi di mana pekerjaan Anda tersedia.
- Peringkat Deployability - Ini adalah penilaian penilaian oleh panelis yang mengevaluasi betapa mudahnya menginstal dalam suatu aplikasi
- Peringkat Dampak Lingkungan (melalui Penggunaan GPU) - Ini memiliki dua komponen - peringkat panel ahli ditambah penyediaan statistik pemrosesan mereka - alias bagaimana 'lapar' model Anda? Apakah ditulis menjadi efisien?
Bagaimana Anda memastikan mudah bagi semua bahasa untuk berpartisipasi?
- Kami secara aktif mendorong pengiriman pada tahap bukti yang menggunakan corpus kecil atau 'mainan'
- Kategori metodologi dan metode kami memungkinkan tim untuk mengirimkan garis besar untuk alat yang belum memiliki sumber daya untuk membangun lebih lanjut
- Kami telah memungkinkan satu bulan waktu pengembangan untuk mengakomodasi mereka yang mengandalkan CPU / komputasi yang lebih lambat
- Bahasa akan dinilai dalam 'band' - sumber daya tinggi, sumber daya sedang dan sumber daya rendah - untuk memastikan persaingan yang lebih adil antara bahasa yang ada dalam konteks yang berbeda
- Kami menciptakan rubrik holistik yang fleksibel yang memungkinkan para juri untuk melihat faktor-faktor nilai tambah ekosistem di luar metrik kinerja seperti tingkat kesalahan kata
- Untuk komunitas yang terpinggirkan yang memiliki kekhawatiran tata kelola tentang melepaskan model mereka di bawah lisensi open source, mereka dipersilakan untuk menyerahkan dengan penjelasan tentang efek itu, dan ini akan dipertimbangkan sesuai
Hakim kami
Siapakah panel juri?
- Profesor Francis Tyers - Penasihat Linguistik Komputasi, Mozilla Foundation & Academic, University of Indiana Indiana
- Dr Vitaly Lavrukhin - Ilmuwan Penelitian Terapan Utama, Nvidia
- Wiebke Hutiri - Kandidat PhD di Delft University of Technology - Keadilan dalam Teknologi Suara
- Dr Abeba Birhane - AI sesama Mozilla
- Rebecca Ryakitimbo - Fellow Komunitas, Kiswahili
- Britone Mwasaru - Fellow Komunitas, Kiswahili
- Dr Josh Meyer- Co-Founder, Coqui
- Stefania Delprete - Data Scientist dan The Italian MCV Community Rep
- Kathy Reid - Kandidat PhD di Australian National University - Bias in Speech Tech, Open Source
- Gabriel Habayeb - Insinyur Data Senior, Yayasan Mozilla
Proses pengiriman
Untuk mengirimkan kode Anda untuk kompetisi, Anda harus melakukan hal berikut:
- Garakan repositori ini di GitHub.
- Buat direktori baru di subdirektori pengiriman/ yang sesuai dengan kategori yang ingin Anda kirimkan.
- Komit dan dorong kode Anda ke subdirektori itu di garpu Anda.
- Buka permintaan tarik ke repositori ini.
- Anda kemudian harus melakukan pengiriman akhir menggunakan formulir ini. Pengajuan yang tidak diserahkan melalui Typeform tidak akan dapat dipertimbangkan .