我們的聲音模型競賽
關於
我們想看到 - 激勵! - 通用語音數據集進行的多樣性,公平性和包容性工作。我們正在運行具有三個廣泛主題的模型和方法競爭以及一個開放類別。
註冊您的利息
從今天開始在此表格中註冊您的興趣,您將收到一個參與者包,其中包含指導,資源,建議等,以幫助您。
如果您考慮申請,請閱讀完整的規則。
參與者包
可以在我們的Google Drive上找到參與者包的本地化版本。
我們在尋找什麼?
您的進入必須是以下類別之一的多樣性,公平性和包容性的模型或方法。它必須主要利用Mozilla第11版(2022年9月)中的Mozilla通用語音數據。除此之外,我們是故意開放的。但是,這裡有一些說明性的例子;
| 類別 | 關於 |
|---|
| 性別 | 用於水資源不足的語言的STT模型,對女性的表現同樣出色 |
| 變體,方言或口音 | 1)用小的“玩具”語料庫傳遞的服務不足語言變體的概念驗證2)由社區和為一個社區的強調分類器 |
| 方法和措施 | 1)基準偏置語料庫2)數據集審計方法 |
| 打開 | 令人興奮的dei主要使用不適合上述類別的通用聲音 |
評估將由贊助商或其指定人員進行,他們應根據以下同等加權標準全權決定確定獲獎者:
- 單詞錯誤率(“ wer”) - 在新的數據集上使用時,模型犯了多少個單詞識別錯誤
- 通過性別或口音人口統計的平衡時得分(根據競爭主題)
- 實用程序 - 這是小組成員評估的判斷評分,評估您的方法或措施的有效性,原始和有用
- 社會需求 /生態系統價值 - 該模型是否為同一語言的其他模型的宇宙增加價值。我們不會取消不是開源的提交資格,但是在考慮更廣泛的標題內的生態系統增值時,我們將考慮您的工作可用的許可證。
- 可部署性評分 - 這是小組成員評估的判斷評分,評估這將在應用程序中安裝多麼容易
- 環境影響評級(通過GPU使用) - 具有兩個組件 - 專家面板等級加上需要提供其處理統計數據 - 又稱您的模型是如何“飢餓”的?它是為高效而寫的嗎?
您如何確保所有語言都很容易參與?
- 我們正在積極鼓勵使用小型或“玩具”語料庫的概念階段的提交
- 我們的方法和方法類別使團隊能夠提交尚無資源進一步建立的工具的大綱
- 我們允許一個月的開發時間來滿足依靠CPU /慢速計算的人
- 語言將在“頻段”中判斷 - 高資源,中等資源和低資源 - 以確保在不同情況下存在的語言之間的更公平的競爭
- 我們正在創建一個靈活的,整體的標語,使法官可以查看生態系統值ADD因子超出績效指標,例如單詞錯誤率
- 對於對在開源許可下釋放其模型的治理關注的邊緣化社區,歡迎他們提交以解釋這一效果,這將被相應地考慮
我們的法官
誰是評審團?
- 弗朗西斯·泰爾(Francis Tyers)教授 - 印第安納大學Mozilla基金會和學術學院的計算語言學顧問
- Vitaly Lavrukhin博士 - NVIDIA的主要應用研究科學家
- Wiebke Hutiri-代爾夫特技術大學的博士候選人 - 語音技術公平性
- Abeba Birhane博士-AI同伴Mozilla
- 麗貝卡·里亞基蒂博(Rebecca Ryakitimbo) - 基斯瓦希里人社區研究員
- Britone Mwasaru-基斯瓦希里人社區研究員
- 喬什·邁耶(Josh Meyer)博士聯合創始人,科奎(Coqui)
- Stefania delprete-數據科學家和意大利MCV社區代表
- 凱西·里德
- GABRIEL HABAYB- MOZILLA基金會高級數據工程師
提交過程
為了提交比賽代碼,您應該執行以下操作:
- 在github中分叉這個存儲庫。
- 在提交/的子目錄中創建一個新目錄,該目錄與您要提交的類別相對應。
- 提交並將您的代碼推向叉子中的該子目錄。
- 向此存儲庫打開拉動請求。
- 然後,您必須使用此表格進行最終提交。未通過TypeForm提交的提交將無法考慮。