masakhane mt 다운로드 -Masakhane masakhane mt 소스 코드 다운로드

masakhane mt

기타 소스코드

1.0.0

다운로드

Masakhane- 아프리카 인을위한 NLP 프로젝트의 살아있는 컬렉션, 아프리카 인

Masakhane은 오픈 소스, 대륙 전체, 배포 및 온라인 인 아프리카 언어를위한 NLP에 대한 연구 노력입니다. 이 Github 리포지토리에는 아프리카 언어에 대한 공개 기준 NLP 결과를 구축하기위한 데이터, 코드, 결과 및 연구가 있습니다.

웹 사이트 : Masakhane.io

목표

아프리카의 경우 : NLP 연구원 커뮤니티를 구축하고 촉진하고, 연결하고 성장시키고, 추가 연구를 유도하고, 공유하고, 정부, 의학, 과학 및 교육에 응용 프로그램에 유용한 도구를 구축하여 언어 보존을 가능하게하고 글로벌 가시성과 관련성을 높이십시오.
NLP 연구의 경우 : 아프리카 언어에 대한 NLP 연구를 촉진하기위한 데이터 세트와 도구를 구축하고 NLP 연구 환경을 풍부하게하기위한 새로운 연구 문제를 제기하는 것입니다.
글로벌 연구원 커뮤니티 : 분산 연구를위한 모범 사례를 발견하고, 다른 신흥 연구 커뮤니티가 적용하는 것.

우리의 기고자들을위한 명예의 전당

진전

EMNLP 2020의 결과에서 출판 될 사전 인쇄물을 여기에서 확인하십시오.
제출 된 기계 번역 벤치 마크를 여기에서보십시오! 당신의 언어를 볼 수 없습니까? 벤치 마크를 제출하십시오!
Africanlp Workshop @ ICLR 2020에 출판 될 논문을 확인하십시오.
참가자가 작성한 논문을 확인하십시오
현재 이니셔티브에 대해 자세히 알아보십시오
커뮤니티 문서 목록을보십시오
주간 회의 노트를 읽으십시오
매체에 대한 출판물을 따르십시오

어떻게 기여할 수 있습니까?

Masakhane 에 기여하는 방법에는 여러 가지가 있습니다.

모델 훈련 - 언어에 대한 훈련 된 모델 및 관련 코드에 기여
분석 - 모든 아프리카 언어에 대한 데이터/모델 분석에 기여합니다. 이를 위해 기술적 인 경험이 필요하지 않습니다! 당신이 언어 학자라면, 우리는 당신을 기계 번역 실무자와 페어링 할 수 있으며 분석에 기여할 수 있습니다.
데이터 - 언어를위한 데이터 세트 구축 또는 찾기에 도움
문서 - 토론, 진행 상황을 문서화하는 데 도움이됩니다. 이것은 매우 필요합니다. 또는 다른 사람의 경험을 향상시킬 기본 "노트북"의 문서화에 기여합니다.
멘토링 - 조언을 제공하거나 언어 및 데이터 세트에 대한 모델을 조정하거나 사람들이 시작하도록 도와줍니다.
관리자 - 많은 연구자들과 함께 일하는 사람들과 함께 일하는 것은 꽤 어려울 수 있습니다! 관리 작업에 도움을주십시오
컴퓨팅 - 인프라 및 컴퓨팅에 도움이됩니다! 기부 할 예비 컴퓨팅이 있습니까? 알려주세요! 우리는 항상 더 많은 것을 찾고 있습니다!
브레인 스토밍은 주간 회의에 참여하고 조언이나 아이디어를 제공합니다
스토리 텔링 - 커뮤니티에 대한 이야기, 중간 출판물에 기여하거나 미디어 매체에 참여함으로써 우리의 이야기를 세상에 이야기합니다.
MLOPS & ML ENGINEERING- 머신 러닝의 MLOPS 측면을 파견하는 것을 즐기십니까? 당신은 당신의 ML 엔지니어 능력에 대한 소프트웨어 개발자입니까? 재생성, 데이터 수집 및 모델 공유를 지원하는 도구를 구축하기 위해 우리와 함께하십시오!

자세한 내용을 원하십니까? 현재 이니셔티브를 확인하십시오

어떻게 가입합니까?

슬랙에 가입하십시오
Google 그룹에 가입하도록 요청합니다
이것은 우리가 웹 페이지 Masakhane.io에서 당신을 특징으로 할 수 있습니다. 다음을 [email protected]으로 이메일로 보내주십시오.
- 당신의 전체 이름
- 선호하는 소셜 미디어 링크
- 당신이 작업 할 언어 (또는 일반적인 관련 전문 분야 - 기계 번역 전문가이고 - 커뮤니티를 강화하고 싶다면).
- 사진
- 당신의 소속과 역할.

이메일 주소를 통해 응답을 받으십시오. 우리는 Covid-19시기에 관리에 매우 뒤쳐져 있습니다.

첫 번째 기계 번역 모델 구축

일반적으로 프로그래밍 경험이있는 경우 언어의 기준을 구축하여 Masakhane과의 여정을 시작하는 것이 좋습니다. 제출에 긴장하거나 어디서부터 시작 해야할지 확실하지 않습니까? 주간 회의에 가입하면 멘토와 짝을 이룰 것입니다!

1. 예제 코드를 살펴보십시오

우리는 영어-Zulu 번역 모델을 훈련시키는 Colab 노트북이 있습니다. 새 프로젝트를 열 때 Github 섹션으로 이동하여 선택할 수 있습니다.

2. 내 언어에 대한 데이터 찾기?!

이것은 큰 도전이지만 운 좋게도 우리는 시작할 장소가 있습니다! ACL 2019 에서이 논문은 출판되었습니다. 짧은 이야기? 여호와의 증인 커뮤니티는 많은 문서를 번역 해 왔으며 모든 문서가 종교적이지는 않습니다. 그리고 그들의 언어 표현은 다양합니다.

언어가 소개되었는지 확인하려면이 스프레드 시트를 확인한 다음 Opus로 이동하여 데이터에 대한 링크를 찾으십시오 : http://opus.nlpl.eu/jw300.php

또한 OPUS : jw300_utils/get_jw300.py 에서 JW300 데이터를 쉽게 다운로드하고 BPE 준비 할 수있는 스크립트를 제공합니다. Opustools-PKG Python 패키지를 설치해야합니다. 예 : JW300의 Acholi (ACh) 및 Nyaneka (NYK) 부분을 다우로드 및 사전 처리하려면 다음과 같이 스크립트를 호출하십시오 python get_jw300.py ach nyk --output_dir jw300

JW300 데이터 세트에서 언어를 찾을 수 없습니까?

그런 다음 여전히 몇 가지 옵션이 있습니다! 우리 커뮤니티는 넓고 멀리 찾고 있습니다! Slack 및 Google Group에 가입하여 앞으로 나아가는 방법을 논의하십시오!

3. 노트북을 실행하십시오!

다음 단계는 Colab 노트북에서 JW300 데이터 세트를 사용하여 실행하는 것입니다. 대부분의 조언은 노트북 자체 내에 있습니다. 우리는 그 노트북을 지속적으로 개선하고 있으며 모든 권장 사항에 개방되어 있습니다. 가기 위해 고군분투 했습니까? 그런 다음 함께 사용하기 쉬운 노트북을 만들어 봅시다! GitHub 문제를 만들거나 이메일을 보내십시오!

4. 끝났습니다! 결과가 있습니다! 이제 뭐?

놀라운! 첫 번째 기준선이 만들어졌습니다. 이제 우리는이 GitHub 저장소에 코드와 데이터를 가져와야합니다.

결과 제출 공무원을 고려하려면 몇 가지가 필요합니다.

코드를 실행할 노트북. 노트북은 다른 사람 계정에서 실행해야하며 사용하는 데이터는 공개적으로 액세스 할 수 있어야합니다 (예 : 노트북을 다운로드하여 실행하는 경우 작동해야하므로 개인 파일을 사용해서는 안됩니다). 이 작업을 수행하는 방법이 궁금하다면 두려워하지 마십시오! 우리에게 줄을두면 우리는 제출이 모두 좋는지 확인하기 위해 함께 일할 것입니다! :)
테스트 세트 -이를 복제하고 결과에 대해 테스트하려면 별도로 업로드 된 저장된 테스트 세트가 필요합니다.
(a) 사용 된 데이터를 설명하는 readme.md - 소스의 조합 인 경우 (b) 모델에 대한 흥미로운 변화 (c) 아마도 최종 모델의 일부 문장에 대한 분석이있을 수 있습니다.
모델 자체. 이것은 Google 드라이브 또는 Dropbox 링크 형식 일 수 있습니다. 우리는 곧 훈련 된 모델을위한 집을 찾을 것입니다. 전송 학습, 추가 교육 또는 배치에 모델을 사용하려면 다음을 제공해야합니다.
1. 매개 변수 ( .ckpt 파일)가있는 검사 점,
2. 소스 및 대상 어휘 ( src_vocab.txt , trg_vocab.txt ),
3. 구성 파일 ( config.yaml ),
4. 해당되는 경우 : 사전 처리 파이프 라인의 BPE 코드 또는 스크립트. Joey NMT는 모델 디렉토리에서 처음 3 개를 저장합니다.
결과 - 기차, 개발자 및 테스트 세트 BLEU 점수

우리는 분석 기술을 더욱 확장 할 것이므로 모델과 테스트 세트의 사본을 가지고 있으므로 분석을 수행하기 위해 교육을 다시 실행할 필요가 없습니다.

위의 모든 것이 있으면 리포지토리에 풀 요청을 작성하십시오. 여기 지침을 참조하십시오.

내 PR의 구조 :

또한 이것을 기여 구조의 예로보십시오.

구조:

 /benchmarks
 /<src-lang>-<tgt-lang>
   /<technique> -- this could be "jw300-baseline" or "fine-tuned-baseline" or "nig-newspaper-dataset"
     - notebook.ipynb
     - README.md
     - test.src
     - test.tgt
     - results.txt
     - src_vocab.txt
     - trg_vocab.txt
     - src.bpe
     - [trg.bpe if the bpe model is not joint with src]
     - config.yaml
     - any other files, if you have any

예:

 /benchmarks
  /en-xh
    /xhnavy-data-baseline
      - notebook.ipynb
      - README.md
      - test.xh
      - test.en
      - results.txt
      - src_vocab.txt
      - trg_vocab.txt
      - en-xh.4000.bpe
      - config.yaml
      - preprocessing.py

다음은 관련 사항이있는 풀 요청에 대한 링크입니다.

첫 번째 풀 요청에 기여하는 것에 대해 긴장하거나 진행할 방법을 확신하지 못합니까? 낙담하지 마세요! 이메일이나 여유 메시지를 보내 주시면 선박 모양으로 귀하의 기여를하기 위해 함께 협력 할 것입니다!

5. 기준선이 있습니다. 개선하기 위해 어떻게해야합니까?

시원한! 따라서 결과를 개선하는 방법에는 여러 가지가 있습니다. 우리는이 문서에서 이들 중 몇 가지를 높였습니다. 다른 아이디어가 있습니까? 우리에게 줄을 버리거나 PR을 제출하십시오!

모델 배포에 대한 메모

우리는 훈련 된 모델 중 어느 것도 생산 사용에 적합한 방법을 강조하고 싶습니다 . 우리의 논문에서 우리는 JW300 데이터 세트에서 이러한 모델을 훈련시키는 성능 효과를 탐구합니다. 모델은 여전히 비 종교 도메인으로 일반화 할 수 없습니다. 일반적으로 NLP 모델을 훈련받지 않은 도메인에 배포해서는 안됩니다. 또한 관련 영역에 대해 교육을 받더라도 편견과 잠재적 피해를 이해하기 위해 모델을 자세히 분석해야합니다 . 이 모델은 더 많은 연구를 촉진하고 그러한 시스템의 실패를 더 잘 이해하기 위해 진행중인 작업 역할을하는 것을 목표로합니다.

행동 강령

행동 강령을 참조하십시오

참조

Bibtex

 @article{nekoto2020participatory,
  title={Participatory research for low-resourced machine translation: A case study in african languages},
  author={{$forall$}, { } and Nekoto, Wilhelmina and Marivate, Vukosi and Matsila, Tshinondiwa and Fasubaa, Timi and Kolawole, Tajudeen and Fagbohungbe, Taiwo and Akinola, Solomon Oluwole and Muhammad, Shamsuddee Hassan and Kabongo, Salomon and Osei, Salomey and others},
  journal={Findings of EMNLP},
  year={2020}
}

확장하다

추가 정보

버전 1.0.0
유형 기타 소스코드
업데이트 시간 2025-04-16
크기 214.25MB
출처 Github

masakhane mt

Masakhane- 아프리카 인을위한 NLP 프로젝트의 살아있는 컬렉션, 아프리카 인

목표

우리의 기고자들을위한 명예의 전당

진전

어떻게 기여할 수 있습니까?

어떻게 가입합니까?

첫 번째 기계 번역 모델 구축

1. 예제 코드를 살펴보십시오

2. 내 언어에 대한 데이터 찾기?!

JW300 데이터 세트에서 언어를 찾을 수 없습니까?

3. 노트북을 실행하십시오!

4. 끝났습니다! 결과가 있습니다! 이제 뭐?

내 PR의 구조 :

5. 기준선이 있습니다. 개선하기 위해 어떻게해야합니까?

모델 배포에 대한 메모

행동 강령

참조

MT 매니저 베타 버전

MT월드

Meituan MT 자전거 앱

MT 포토 안드로이드 버전

MT 반환

MT 그림도둑

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express