Masakhane은 오픈 소스, 대륙 전체, 배포 및 온라인 인 아프리카 언어를위한 NLP에 대한 연구 노력입니다. 이 Github 리포지토리에는 아프리카 언어에 대한 공개 기준 NLP 결과를 구축하기위한 데이터, 코드, 결과 및 연구가 있습니다.
웹 사이트 : Masakhane.io
아프리카의 경우 : NLP 연구원 커뮤니티를 구축하고 촉진하고, 연결하고 성장시키고, 추가 연구를 유도하고, 공유하고, 정부, 의학, 과학 및 교육에 응용 프로그램에 유용한 도구를 구축하여 언어 보존을 가능하게하고 글로벌 가시성과 관련성을 높이십시오.
NLP 연구의 경우 : 아프리카 언어에 대한 NLP 연구를 촉진하기위한 데이터 세트와 도구를 구축하고 NLP 연구 환경을 풍부하게하기위한 새로운 연구 문제를 제기하는 것입니다.
글로벌 연구원 커뮤니티 : 분산 연구를위한 모범 사례를 발견하고, 다른 신흥 연구 커뮤니티가 적용하는 것.
Masakhane 에 기여하는 방법에는 여러 가지가 있습니다.
자세한 내용을 원하십니까? 현재 이니셔티브를 확인하십시오
슬랙에 가입하십시오
Google 그룹에 가입하도록 요청합니다
이것은 우리가 웹 페이지 Masakhane.io에서 당신을 특징으로 할 수 있습니다. 다음을 [email protected]으로 이메일로 보내주십시오.
이메일 주소를 통해 응답을 받으십시오. 우리는 Covid-19시기에 관리에 매우 뒤쳐져 있습니다.
일반적으로 프로그래밍 경험이있는 경우 언어의 기준을 구축하여 Masakhane과의 여정을 시작하는 것이 좋습니다. 제출에 긴장하거나 어디서부터 시작 해야할지 확실하지 않습니까? 주간 회의에 가입하면 멘토와 짝을 이룰 것입니다!
우리는 영어-Zulu 번역 모델을 훈련시키는 Colab 노트북이 있습니다. 새 프로젝트를 열 때 Github 섹션으로 이동하여 선택할 수 있습니다.
이것은 큰 도전이지만 운 좋게도 우리는 시작할 장소가 있습니다! ACL 2019 에서이 논문은 출판되었습니다. 짧은 이야기? 여호와의 증인 커뮤니티는 많은 문서를 번역 해 왔으며 모든 문서가 종교적이지는 않습니다. 그리고 그들의 언어 표현은 다양합니다.
언어가 소개되었는지 확인하려면이 스프레드 시트를 확인한 다음 Opus로 이동하여 데이터에 대한 링크를 찾으십시오 : http://opus.nlpl.eu/jw300.php
또한 OPUS : jw300_utils/get_jw300.py 에서 JW300 데이터를 쉽게 다운로드하고 BPE 준비 할 수있는 스크립트를 제공합니다. Opustools-PKG Python 패키지를 설치해야합니다. 예 : JW300의 Acholi (ACh) 및 Nyaneka (NYK) 부분을 다우로드 및 사전 처리하려면 다음과 같이 스크립트를 호출하십시오 python get_jw300.py ach nyk --output_dir jw300
그런 다음 여전히 몇 가지 옵션이 있습니다! 우리 커뮤니티는 넓고 멀리 찾고 있습니다! Slack 및 Google Group에 가입하여 앞으로 나아가는 방법을 논의하십시오!
다음 단계는 Colab 노트북에서 JW300 데이터 세트를 사용하여 실행하는 것입니다. 대부분의 조언은 노트북 자체 내에 있습니다. 우리는 그 노트북을 지속적으로 개선하고 있으며 모든 권장 사항에 개방되어 있습니다. 가기 위해 고군분투 했습니까? 그런 다음 함께 사용하기 쉬운 노트북을 만들어 봅시다! GitHub 문제를 만들거나 이메일을 보내십시오!
놀라운! 첫 번째 기준선이 만들어졌습니다. 이제 우리는이 GitHub 저장소에 코드와 데이터를 가져와야합니다.
결과 제출 공무원을 고려하려면 몇 가지가 필요합니다.
코드를 실행할 노트북. 노트북은 다른 사람 계정에서 실행해야하며 사용하는 데이터는 공개적으로 액세스 할 수 있어야합니다 (예 : 노트북을 다운로드하여 실행하는 경우 작동해야하므로 개인 파일을 사용해서는 안됩니다). 이 작업을 수행하는 방법이 궁금하다면 두려워하지 마십시오! 우리에게 줄을두면 우리는 제출이 모두 좋는지 확인하기 위해 함께 일할 것입니다! :)
테스트 세트 -이를 복제하고 결과에 대해 테스트하려면 별도로 업로드 된 저장된 테스트 세트가 필요합니다.
(a) 사용 된 데이터를 설명하는 readme.md - 소스의 조합 인 경우 (b) 모델에 대한 흥미로운 변화 (c) 아마도 최종 모델의 일부 문장에 대한 분석이있을 수 있습니다.
모델 자체. 이것은 Google 드라이브 또는 Dropbox 링크 형식 일 수 있습니다. 우리는 곧 훈련 된 모델을위한 집을 찾을 것입니다. 전송 학습, 추가 교육 또는 배치에 모델을 사용하려면 다음을 제공해야합니다.
.ckpt 파일)가있는 검사 점,src_vocab.txt , trg_vocab.txt ),config.yaml ),결과 - 기차, 개발자 및 테스트 세트 BLEU 점수
우리는 분석 기술을 더욱 확장 할 것이므로 모델과 테스트 세트의 사본을 가지고 있으므로 분석을 수행하기 위해 교육을 다시 실행할 필요가 없습니다.
위의 모든 것이 있으면 리포지토리에 풀 요청을 작성하십시오. 여기 지침을 참조하십시오.
또한 이것을 기여 구조의 예로보십시오.
구조:
/benchmarks
/<src-lang>-<tgt-lang>
/<technique> -- this could be "jw300-baseline" or "fine-tuned-baseline" or "nig-newspaper-dataset"
- notebook.ipynb
- README.md
- test.src
- test.tgt
- results.txt
- src_vocab.txt
- trg_vocab.txt
- src.bpe
- [trg.bpe if the bpe model is not joint with src]
- config.yaml
- any other files, if you have any
예:
/benchmarks
/en-xh
/xhnavy-data-baseline
- notebook.ipynb
- README.md
- test.xh
- test.en
- results.txt
- src_vocab.txt
- trg_vocab.txt
- en-xh.4000.bpe
- config.yaml
- preprocessing.py
다음은 관련 사항이있는 풀 요청에 대한 링크입니다.
첫 번째 풀 요청에 기여하는 것에 대해 긴장하거나 진행할 방법을 확신하지 못합니까? 낙담하지 마세요! 이메일이나 여유 메시지를 보내 주시면 선박 모양으로 귀하의 기여를하기 위해 함께 협력 할 것입니다!
시원한! 따라서 결과를 개선하는 방법에는 여러 가지가 있습니다. 우리는이 문서에서 이들 중 몇 가지를 높였습니다. 다른 아이디어가 있습니까? 우리에게 줄을 버리거나 PR을 제출하십시오!
우리는 훈련 된 모델 중 어느 것도 생산 사용에 적합한 방법을 강조하고 싶습니다 . 우리의 논문에서 우리는 JW300 데이터 세트에서 이러한 모델을 훈련시키는 성능 효과를 탐구합니다. 모델은 여전히 비 종교 도메인으로 일반화 할 수 없습니다. 일반적으로 NLP 모델을 훈련받지 않은 도메인에 배포해서는 안됩니다. 또한 관련 영역에 대해 교육을 받더라도 편견과 잠재적 피해를 이해하기 위해 모델을 자세히 분석해야합니다 . 이 모델은 더 많은 연구를 촉진하고 그러한 시스템의 실패를 더 잘 이해하기 위해 진행중인 작업 역할을하는 것을 목표로합니다.
행동 강령을 참조하십시오
Bibtex
@article{nekoto2020participatory,
title={Participatory research for low-resourced machine translation: A case study in african languages},
author={{$forall$}, { } and Nekoto, Wilhelmina and Marivate, Vukosi and Matsila, Tshinondiwa and Fasubaa, Timi and Kolawole, Tajudeen and Fagbohungbe, Taiwo and Akinola, Solomon Oluwole and Muhammad, Shamsuddee Hassan and Kabongo, Salomon and Osei, Salomey and others},
journal={Findings of EMNLP},
year={2020}
}