masakhane mt скачать - скачать исходный код masakhane mt

masakhane mt

Другой исходный код

1.0.0

Скачать

Масахане - живая коллекция проектов НЛП для африканцев, африканцев

Масахане -это исследовательская попытка NLP для африканских языков, который является открытым исходным кодом, распределенным и онлайн. В этом репозитории GitHub содержится данные, код, результаты и исследования для создания открытых базовых результатов НЛП для африканских языков.

Веб -сайт: masakhane.io

Цели

Для Африки : создать и облегчить сообщество исследователей НЛП, соединить и выращивать ее, стимулировать и обмениваться дальнейшими исследованиями, создавать полезные инструменты для применений в правительстве, медицине, науке и образовании, чтобы обеспечить сохранение языка и повысить его глобальную видимость и актуальность.
Для исследований НЛП : создать наборы данных и инструменты для облегчения исследований НЛП на африканских языках и создания новых исследований для обогащения научно -исследовательского ландшафта НЛП.
Для глобального сообщества исследователей : чтобы узнать передовые практики для распределенных исследований, которые будут применены другими развивающимися исследовательскими сообществами.

Зал славы для наших участников

Прогресс

Смотрите наш предварительный отпечаток, который будет опубликован на выводах EMNLP 2020
Посмотрите на наши представленные тесты перевода машины здесь! Не видите ваш язык? Пожалуйста, отправьте эталон!
Проверьте нашу статью, которая будет опубликована на Africanlp Workshop @ ICLR 2020
Проверьте документы, написанные нашими участниками здесь
Найдите наше больше о наших нынешних инициативах
Посмотрите на наш список документов сообщества
Прочитайте наши еженедельные заметки о встрече
Следуйте нашей публикации на среде

Как я могу внести свой вклад?

Есть много способов внести свой вклад в Масахане .

Обучить модель - внесите обученную модель и связанный код для вашего языка
Анализ - внести свой вклад в анализ данных/моделей для любых африканских языков. Вам не нужен технический опыт для этого! Если вы лингвист, мы сможем связать вас с практикующим трансляцией машин, и вы можете помочь внести анализ
Данные - Помогите создавать или найти наборы данных для вашего языка
Документация - Помогите документировать наши дискуссии, прогресс. Это очень необходимо. Или внести свой вклад в документацию базовой записной книжки », которая улучшит опыт других
Наставничество - предоставьте советы или помогите настроить модели для их языков и наборов данных, или помогать людям начать работу
Админ - работа со многими исследователями может быть довольно сложной задачей! Помогите с административными задачами
Вычислите - Помогите с инфраструктурой и вычислить! У вас есть запасной вычислитель, чтобы пожертвовать? Дайте нам знать! Мы всегда ищем больше!
Мозговой штурм присоединяйтесь к нашим еженедельным встречам, дайте советы или идеи
Рассказывание историй - расскажите наши истории миру, рассказывая о сообществе, вносясь в нашу среднюю публикацию или взаимодействуя со СМИ
MLOPS & ML Engineering - вам нравится углубляться в сторону машинного обучения MLOPS? Вы разработчик программного обеспечения, который хотите оттачивать свои способности инженера ML? Присоединяйтесь к нам, чтобы помочь создать инструменты для поддержки воспроизводимости, сбора данных и обмена моделями!

Хотите больше подробностей? Проверьте наши текущие инициативы

Как мне присоединиться?

Присоединяйтесь к нашему слабым
Запрос присоединиться к нашей группе Google
Это так мы можем представить вас на нашей веб -странице Masakhane.io. Пожалуйста, напишите следующее по адресу [email protected]:
- Ваше полное имя
- Предпочтительная ссылка на социальные сети
- Язык (ы), над которым вы будете работать (или свою общую соответствующую специальность - если вы эксперт в машинном переводе и хотели бы увеличить сообщество через это)
- Картина
- Ваша принадлежность и роль.

Пожалуйста, будьте терпеливы с ответом по нашему адресу электронной почты, мы очень отстаем от нашей администрации, во время Covid-19.

Создание первой модели машинного перевода

Как правило, если у вас есть какой -то опыт программирования, мы рекомендуем вам начать свое путешествие с Масахане, создав базовую линию для вашего языка. Чувствуете нервное представление или не уверены, с чего начать? Пожалуйста, присоединяйтесь к нашей еженедельной встрече, и мы соединим вас с наставником!

1. Посмотрите на пример кода

У нас есть пример ноутбука Colab, которая обучает модель для перевода на английский в сзулу. Вы можете выбрать его, перейдя в раздел GitHub при открытии нового проекта.

2. Найти данные для моего языка?!

Это огромный вызов, но, к счастью, у нас есть место для начала! На ACL 2019 эта статья была опубликована. Рассказ? Оказывается, сообщество свидетелей Иеговы переводило множество документов, и не все из них религиозны. И их языковое представление разнообразно.

Проверьте эту таблицу здесь, чтобы увидеть, если ваш язык показан, затем перейдите в Opus, чтобы найти ссылки на данные: http://opus.nlpl.eu/jw300.php

Мы также предоставляем сценарий для легкой загрузки и обработки BPE данных JW300 из Opus: jw300_utils/get_jw300.py . Требуется установка пакета Python Python Opustools-Pkg. Пример: для загрузки и предварительной обработки Acholi (ACH) и Nyaneka (NYK) JW300, позвоните в скрипт следующим образом: python get_jw300.py ach nyk --output_dir jw300

Не можете найти свой язык в наборе данных JW300?

Тогда у нас еще есть несколько вариантов! Наше сообщество искало широкое и далеко! Присоединяйтесь к нашей группе Slack и Google, чтобы обсудить путь вперед!

3. Запустите ноутбук!

Ваш следующий шаг - использовать набор данных JW300 в ноутбуке Colab и запустить его. Большинство советов находятся в самой ноутбуке. Мы постоянно улучшаем эту ноутбук и открыты для любых рекомендаций. Изо всех сил пытались начать? Тогда давайте будем работать вместе, чтобы построить ноутбук, который проще в использовании! Создайте проблему GitHub или напишите нам!

4. Это сделано! У меня есть результаты! Теперь что?

Удивительный! Вы создали свой первый базовый уровень. Теперь нам нужно получить код и данные и результаты в этом репозитории GitHub

Чтобы мы могли рассмотреть ваш результат официального представителя, нам нужно пару вещей:

Записная книжка, которая будет запускать код. Записная книжка должна работать на кого -то еще учетной записи, и данные, которые он использует, должны быть общедоступными (т. Е. Если я загружаю ноутбук и запускаю его, он должен работать - поэтому не следует использовать какие -либо частные файлы). Если вам интересно, как это сделать, не бойтесь! Оставьте нам линию, и мы будем работать вместе, чтобы убедиться, что подчинение хорошо! :)
Тестовые наборы - чтобы воспроизвести это и тестировать по сравнению с вашими результатами, нам нужны сохраненные тесты, загруженные отдельно.
Readme.md, который описывает (а) используемые данные - esp важно, если это комбинация источников (b) любые интересные изменения в модели (c) Возможно, некоторые анализ некоторых предложений окончательной модели
Сама модель. Это может быть в форме связи Google Drive или Dropbox. Мы скоро найдем дом для наших обученных моделей. Для моделей, которые будут использоваться для обучения передачи, дальнейшего обучения или развертывания, вам необходимо предоставить:
1. Контрольная точка с параметрами (файл .ckpt ),
2. Источник и целевой словарь ( src_vocab.txt , trg_vocab.txt ),
3. Файл конфигурации ( config.yaml ),
4. И если применимо: коды BPE или сценарии для вашего предварительного обработки. Джои NMT сохраняет первые три в модельном каталоге.
Результаты - поезда, разработка и тестовый набор BLEU оценка

Мы будем дальше расширять наши методы анализа, поэтому очень важно, чтобы у нас сейчас была копия модели и наборов тестирования, поэтому нам не нужно повторять обучение, чтобы просто сделать анализ

После того, как у вас есть все вышеперечисленное, пожалуйста, создайте запрос на притяжение в репозиторий. Смотрите рекомендации здесь.

Структура моего PR:

Также см. Это в качестве примера для структуры вашего вклада

Структура:

 /benchmarks
 /<src-lang>-<tgt-lang>
   /<technique> -- this could be "jw300-baseline" or "fine-tuned-baseline" or "nig-newspaper-dataset"
     - notebook.ipynb
     - README.md
     - test.src
     - test.tgt
     - results.txt
     - src_vocab.txt
     - trg_vocab.txt
     - src.bpe
     - [trg.bpe if the bpe model is not joint with src]
     - config.yaml
     - any other files, if you have any

Пример:

 /benchmarks
  /en-xh
    /xhnavy-data-baseline
      - notebook.ipynb
      - README.md
      - test.xh
      - test.en
      - results.txt
      - src_vocab.txt
      - trg_vocab.txt
      - en-xh.4000.bpe
      - config.yaml
      - preprocessing.py

Вот ссылка на запрос на тягу, которая имеет соответствующие вещи.

Чувствуете нервничать из -за того, что внесли свой первый запрос на привлечение или не уверены, как продолжить? Пожалуйста, не чувствуйте себя обескураженным! Оставьте нам электронное письмо или сообщение о слабом, и мы будем работать вместе, чтобы получить ваш вклад в форму корабля!

5. У меня есть базовая линия. Что мне делать, чтобы улучшить это?

Прохладный! Таким образом, есть много способов улучшить результаты. Мы подняли несколько из них в этом документе. Есть другие идеи? Бросьте нам линию или отправьте PR!

Примечания о развертывании модели

Мы хотели бы подчеркнуть, как ни одна из обученных моделей не подходит для использования производства . В нашей статье здесь мы исследуем эффекты производительности обучения такой модели на наборах данных JW300 - модели все еще не могут обобщать нерелигиозные домены. Как правило, никогда не следует развернуть модель NLP в домене, для которой она не была обучена. И даже если он обучен соответствующему домену, следует подробно проанализировать модель, чтобы понять смещения и потенциальный вред . Эти модели направлены на то, чтобы служить работой , чтобы стимулировать больше исследований и лучше понять неудачу таких систем.

Нормы поведения

См. Кодекс поведения

Ссылка

Бибтекс

 @article{nekoto2020participatory,
  title={Participatory research for low-resourced machine translation: A case study in african languages},
  author={{$forall$}, { } and Nekoto, Wilhelmina and Marivate, Vukosi and Matsila, Tshinondiwa and Fasubaa, Timi and Kolawole, Tajudeen and Fagbohungbe, Taiwo and Akinola, Solomon Oluwole and Muhammad, Shamsuddee Hassan and Kabongo, Salomon and Osei, Salomey and others},
  journal={Findings of EMNLP},
  year={2020}
}

Расширять

Дополнительная информация