Masakhane是NLP的非洲語言的研究工作,這是開源,整個大陸,分發和在線的開源。該GITHUB存儲庫包含有關非洲語言開放基線NLP結果的數據,代碼,結果和研究。
網站:masakhane.io
對於非洲:建立和促進NLP研究人員的社區,將其聯繫並發展,刺激和共享進一步的研究,為政府,醫學,科學和教育的應用建立有用的工具,以啟用語言保護並提高其全球知名度和相關性。
對於NLP研究:建立數據集和工具以促進NLP對非洲語言的研究,並提出新的研究問題以豐富NLP研究格局。
對於全球研究人員社區:尋找用於分佈式研究的最佳實踐,將由其他新興研究社區應用。
有很多方法可以為Masakhane做出貢獻。
想要更多細節嗎?查看我們當前的計劃
加入我們的懈怠
請求加入我們的Google組
這樣我們就可以在我們的網頁masakhane.io上為您提供特色。請通過電子郵件將以下內容髮送至[email protected]:
請通過我們的電子郵件地址耐心等待回复,我們在Covid-19的時代非常落後於我們的管理。
通常,如果您有一些編程經驗,我們鼓勵您通過為您的語言建立基準來開始與Masakhane的旅程。感到緊張地提交或不確定從哪裡開始?請加入我們的每週會議,我們將與您配對導師!
我們有一個示例COLAB筆記本,該筆記本訓練了一個用於英語到Zulu翻譯的模型。您可以在打開新項目時轉到GitHub部分來選擇它。
這是一個巨大的挑戰,但幸運的是,我們有一個起點!在ACL 2019上,本文發表了。短篇小說?事實證明,耶和華見證人社區一直在翻譯許多文件,但並非所有文件都是宗教信仰的。他們的語言表示是多種多樣的。
在此處查看此電子表格以查看您的語言是否是特徵,然後轉到Opus查找數據的鏈接:http://opus.nlpl.eu/jw300.php
我們還提供了一個腳本,可輕鬆下載和從Opus: jw300_utils/get_jw300.py的JW300數據進行jw300數據。它需要安裝Opustools-PKG Python軟件包。示例:對於JW300的Acholi(ACH python get_jw300.py ach nyk --output_dir jw300和Nyaneka(nyk)部分的銷售和進行預處理
然後,我們仍然有一些選擇!我們的社區一直在搜索廣泛的搜索!加入我們的Slack和Google Group,討論前進的道路!
您的下一步是在COLAB筆記本中使用JW300數據集並運行它。大多數建議在筆記本本身內。我們一直在改進該筆記本,並向任何建議開放。努力去?然後,讓我們一起構建一個易於使用的筆記本!創建一個GitHub問題或給我們發送電子郵件!
驚人的!您創建了第一個基線。現在,我們需要將代碼和數據和結果獲取到此GitHub存儲庫中
為了使我們考慮您的成績提交官員,我們需要幾件事:
將運行代碼的筆記本。筆記本必須在其他人帳戶上運行及其使用的數據應公開訪問(即,如果下載筆記本並運行它,則必須使用它 - 因此不應該使用任何私人文件)。如果您想知道該怎麼做,請不要害怕!給我們放置一條線,我們將共同努力,以確保提交一切都很好! :)
測試集 - 為了複製此功能並根據您的結果進行測試,我們需要分別上傳保存的測試設置。
一個redme.md,描述了(a)所使用的數據 - 如果是來源的組合(b)模型的任何有趣的更改(c)可能對最終模型的某些句子進行一些分析
模型本身。這可以是Google Drive或Dropbox鏈接的形式。我們將很快找到訓練有素的模型的家。為了用於轉移學習,進一步培訓或部署的模型,您需要提供:
.ckpt文件)的檢查點,src_vocab.txt , trg_vocab.txt ),config.yaml ),結果 - 火車,開發和測試集BLEU得分
我們將進一步擴展分析技術,因此我們現在擁有模型和測試集的副本非常重要,因此我們不需要重新進行培訓來進行分析
一旦擁有以上所有內容,請在存儲庫中創建一個拉動請求。請參閱此處的指南。
還將其視為您貢獻結構的示例
結構:
/benchmarks
/<src-lang>-<tgt-lang>
/<technique> -- this could be "jw300-baseline" or "fine-tuned-baseline" or "nig-newspaper-dataset"
- notebook.ipynb
- README.md
- test.src
- test.tgt
- results.txt
- src_vocab.txt
- trg_vocab.txt
- src.bpe
- [trg.bpe if the bpe model is not joint with src]
- config.yaml
- any other files, if you have any
例子:
/benchmarks
/en-xh
/xhnavy-data-baseline
- notebook.ipynb
- README.md
- test.xh
- test.en
- results.txt
- src_vocab.txt
- trg_vocab.txt
- en-xh.4000.bpe
- config.yaml
- preprocessing.py
這是具有相關內容的拉力請求的鏈接。
對貢獻您的第一個拉動請求或不確定如何進行感到緊張?請不要灰心!給我們發送電子郵件或鬆懈的消息,我們將共同努力,以使您的船形貢獻!
涼爽的!因此,有很多方法可以改善結果。在本文檔中,我們已經提高了其中的一些。還有其他想法嗎?給我們送一條線或提交公關!
我們想強調如何不適合生產使用。在我們的論文中,我們探討了在JW300數據集上訓練這種模型的性能效果 - 這些模型仍無法推廣到非宗教域。通常,永遠不要將NLP模型部署在尚未訓練的域中。即使對相關領域進行了訓練,也應詳細分析模型,以了解偏見和潛在危害。這些模型旨在作為正在進行的工作,以刺激更多的研究,並更好地了解此類系統的失敗。
參見行為準則
Bibtex
@article{nekoto2020participatory,
title={Participatory research for low-resourced machine translation: A case study in african languages},
author={{$forall$}, { } and Nekoto, Wilhelmina and Marivate, Vukosi and Matsila, Tshinondiwa and Fasubaa, Timi and Kolawole, Tajudeen and Fagbohungbe, Taiwo and Akinola, Solomon Oluwole and Muhammad, Shamsuddee Hassan and Kabongo, Salomon and Osei, Salomey and others},
journal={Findings of EMNLP},
year={2020}
}