Masakhane是NLP的非洲语言的研究工作,这是开源,整个大陆,分发和在线的开源。该GITHUB存储库包含有关非洲语言开放基线NLP结果的数据,代码,结果和研究。
网站:masakhane.io
对于非洲:建立和促进NLP研究人员的社区,将其联系并发展,刺激和共享进一步的研究,为政府,医学,科学和教育的应用建立有用的工具,以启用语言保护并提高其全球知名度和相关性。
对于NLP研究:建立数据集和工具以促进NLP对非洲语言的研究,并提出新的研究问题以丰富NLP研究格局。
对于全球研究人员社区:寻找用于分布式研究的最佳实践,将由其他新兴研究社区应用。
有很多方法可以为Masakhane做出贡献。
想要更多细节吗?查看我们当前的计划
加入我们的懈怠
请求加入我们的Google组
这样我们就可以在我们的网页masakhane.io上为您提供特色。请通过电子邮件将以下内容发送至[email protected]:
请通过我们的电子邮件地址耐心等待回复,我们在Covid-19的时代非常落后于我们的管理。
通常,如果您有一些编程经验,我们鼓励您通过为您的语言建立基准来开始与Masakhane的旅程。感到紧张地提交或不确定从哪里开始?请加入我们的每周会议,我们将与您配对导师!
我们有一个示例COLAB笔记本,该笔记本训练了一个用于英语到Zulu翻译的模型。您可以在打开新项目时转到GitHub部分来选择它。
这是一个巨大的挑战,但幸运的是,我们有一个起点!在ACL 2019上,本文发表了。短篇小说?事实证明,耶和华见证人社区一直在翻译许多文件,但并非所有文件都是宗教信仰的。他们的语言表示是多种多样的。
在此处查看此电子表格以查看您的语言是否是特征,然后转到Opus查找数据的链接:http://opus.nlpl.eu/jw300.php
我们还提供了一个脚本,可轻松下载和从Opus: jw300_utils/get_jw300.py的JW300数据进行jw300数据。它需要安装Opustools-PKG Python软件包。示例:对于JW300的Acholi(ACH python get_jw300.py ach nyk --output_dir jw300和Nyaneka(nyk)部分的销售和进行预处理
然后,我们仍然有一些选择!我们的社区一直在搜索广泛的搜索!加入我们的Slack和Google Group,讨论前进的道路!
您的下一步是在COLAB笔记本中使用JW300数据集并运行它。大多数建议在笔记本本身内。我们一直在改进该笔记本,并向任何建议开放。努力去?然后,让我们一起构建一个易于使用的笔记本!创建一个GitHub问题或给我们发送电子邮件!
惊人的!您创建了第一个基线。现在,我们需要将代码和数据和结果获取到此GitHub存储库中
为了使我们考虑您的成绩提交官员,我们需要几件事:
将运行代码的笔记本。笔记本必须在其他人帐户上运行及其使用的数据应公开访问(即,如果下载笔记本并运行它,则必须使用它 - 因此不应该使用任何私人文件)。如果您想知道该怎么做,请不要害怕!给我们放置一条线,我们将共同努力,以确保提交一切都很好! :)
测试集 - 为了复制此功能并根据您的结果进行测试,我们需要分别上传保存的测试设置。
一个redme.md,描述了(a)所使用的数据 - 如果是来源的组合(b)模型的任何有趣的更改(c)可能对最终模型的某些句子进行一些分析
模型本身。这可以是Google Drive或Dropbox链接的形式。我们将很快找到训练有素的模型的家。为了用于转移学习,进一步培训或部署的模型,您需要提供:
.ckpt文件)的检查点,src_vocab.txt , trg_vocab.txt ),config.yaml ),结果 - 火车,开发和测试集BLEU得分
我们将进一步扩展分析技术,因此我们现在拥有模型和测试集的副本非常重要,因此我们不需要重新进行培训来进行分析
一旦拥有以上所有内容,请在存储库中创建一个拉动请求。请参阅此处的指南。
还将其视为您贡献结构的示例
结构:
/benchmarks
/<src-lang>-<tgt-lang>
/<technique> -- this could be "jw300-baseline" or "fine-tuned-baseline" or "nig-newspaper-dataset"
- notebook.ipynb
- README.md
- test.src
- test.tgt
- results.txt
- src_vocab.txt
- trg_vocab.txt
- src.bpe
- [trg.bpe if the bpe model is not joint with src]
- config.yaml
- any other files, if you have any
例子:
/benchmarks
/en-xh
/xhnavy-data-baseline
- notebook.ipynb
- README.md
- test.xh
- test.en
- results.txt
- src_vocab.txt
- trg_vocab.txt
- en-xh.4000.bpe
- config.yaml
- preprocessing.py
这是具有相关内容的拉力请求的链接。
对贡献您的第一个拉动请求或不确定如何进行感到紧张?请不要灰心!给我们发送电子邮件或松懈的消息,我们将共同努力,以使您的船形贡献!
凉爽的!因此,有很多方法可以改善结果。在本文档中,我们已经提高了其中的一些。还有其他想法吗?给我们送一条线或提交公关!
我们想强调如何不适合生产使用。在我们的论文中,我们探讨了在JW300数据集上训练这种模型的性能效果 - 这些模型仍无法推广到非宗教域。通常,永远不要将NLP模型部署在尚未训练的域中。即使对相关领域进行了训练,也应详细分析模型,以了解偏见和潜在危害。这些模型旨在作为正在进行的工作,以刺激更多的研究,并更好地了解此类系统的失败。
参见行为准则
Bibtex
@article{nekoto2020participatory,
title={Participatory research for low-resourced machine translation: A case study in african languages},
author={{$forall$}, { } and Nekoto, Wilhelmina and Marivate, Vukosi and Matsila, Tshinondiwa and Fasubaa, Timi and Kolawole, Tajudeen and Fagbohungbe, Taiwo and Akinola, Solomon Oluwole and Muhammad, Shamsuddee Hassan and Kabongo, Salomon and Osei, Salomey and others},
journal={Findings of EMNLP},
year={2020}
}