Масахане -это исследовательская попытка NLP для африканских языков, который является открытым исходным кодом, распределенным и онлайн. В этом репозитории GitHub содержится данные, код, результаты и исследования для создания открытых базовых результатов НЛП для африканских языков.
Веб -сайт: masakhane.io
Для Африки : создать и облегчить сообщество исследователей НЛП, соединить и выращивать ее, стимулировать и обмениваться дальнейшими исследованиями, создавать полезные инструменты для применений в правительстве, медицине, науке и образовании, чтобы обеспечить сохранение языка и повысить его глобальную видимость и актуальность.
Для исследований НЛП : создать наборы данных и инструменты для облегчения исследований НЛП на африканских языках и создания новых исследований для обогащения научно -исследовательского ландшафта НЛП.
Для глобального сообщества исследователей : чтобы узнать передовые практики для распределенных исследований, которые будут применены другими развивающимися исследовательскими сообществами.
Есть много способов внести свой вклад в Масахане .
Хотите больше подробностей? Проверьте наши текущие инициативы
Присоединяйтесь к нашему слабым
Запрос присоединиться к нашей группе Google
Это так мы можем представить вас на нашей веб -странице Masakhane.io. Пожалуйста, напишите следующее по адресу [email protected]:
Пожалуйста, будьте терпеливы с ответом по нашему адресу электронной почты, мы очень отстаем от нашей администрации, во время Covid-19.
Как правило, если у вас есть какой -то опыт программирования, мы рекомендуем вам начать свое путешествие с Масахане, создав базовую линию для вашего языка. Чувствуете нервное представление или не уверены, с чего начать? Пожалуйста, присоединяйтесь к нашей еженедельной встрече, и мы соединим вас с наставником!
У нас есть пример ноутбука Colab, которая обучает модель для перевода на английский в сзулу. Вы можете выбрать его, перейдя в раздел GitHub при открытии нового проекта.
Это огромный вызов, но, к счастью, у нас есть место для начала! На ACL 2019 эта статья была опубликована. Рассказ? Оказывается, сообщество свидетелей Иеговы переводило множество документов, и не все из них религиозны. И их языковое представление разнообразно.
Проверьте эту таблицу здесь, чтобы увидеть, если ваш язык показан, затем перейдите в Opus, чтобы найти ссылки на данные: http://opus.nlpl.eu/jw300.php
Мы также предоставляем сценарий для легкой загрузки и обработки BPE данных JW300 из Opus: jw300_utils/get_jw300.py . Требуется установка пакета Python Python Opustools-Pkg. Пример: для загрузки и предварительной обработки Acholi (ACH) и Nyaneka (NYK) JW300, позвоните в скрипт следующим образом: python get_jw300.py ach nyk --output_dir jw300
Тогда у нас еще есть несколько вариантов! Наше сообщество искало широкое и далеко! Присоединяйтесь к нашей группе Slack и Google, чтобы обсудить путь вперед!
Ваш следующий шаг - использовать набор данных JW300 в ноутбуке Colab и запустить его. Большинство советов находятся в самой ноутбуке. Мы постоянно улучшаем эту ноутбук и открыты для любых рекомендаций. Изо всех сил пытались начать? Тогда давайте будем работать вместе, чтобы построить ноутбук, который проще в использовании! Создайте проблему GitHub или напишите нам!
Удивительный! Вы создали свой первый базовый уровень. Теперь нам нужно получить код и данные и результаты в этом репозитории GitHub
Чтобы мы могли рассмотреть ваш результат официального представителя, нам нужно пару вещей:
Записная книжка, которая будет запускать код. Записная книжка должна работать на кого -то еще учетной записи, и данные, которые он использует, должны быть общедоступными (т. Е. Если я загружаю ноутбук и запускаю его, он должен работать - поэтому не следует использовать какие -либо частные файлы). Если вам интересно, как это сделать, не бойтесь! Оставьте нам линию, и мы будем работать вместе, чтобы убедиться, что подчинение хорошо! :)
Тестовые наборы - чтобы воспроизвести это и тестировать по сравнению с вашими результатами, нам нужны сохраненные тесты, загруженные отдельно.
Readme.md, который описывает (а) используемые данные - esp важно, если это комбинация источников (b) любые интересные изменения в модели (c) Возможно, некоторые анализ некоторых предложений окончательной модели
Сама модель. Это может быть в форме связи Google Drive или Dropbox. Мы скоро найдем дом для наших обученных моделей. Для моделей, которые будут использоваться для обучения передачи, дальнейшего обучения или развертывания, вам необходимо предоставить:
.ckpt ),src_vocab.txt , trg_vocab.txt ),config.yaml ),Результаты - поезда, разработка и тестовый набор BLEU оценка
Мы будем дальше расширять наши методы анализа, поэтому очень важно, чтобы у нас сейчас была копия модели и наборов тестирования, поэтому нам не нужно повторять обучение, чтобы просто сделать анализ
После того, как у вас есть все вышеперечисленное, пожалуйста, создайте запрос на притяжение в репозиторий. Смотрите рекомендации здесь.
Также см. Это в качестве примера для структуры вашего вклада
Структура:
/benchmarks
/<src-lang>-<tgt-lang>
/<technique> -- this could be "jw300-baseline" or "fine-tuned-baseline" or "nig-newspaper-dataset"
- notebook.ipynb
- README.md
- test.src
- test.tgt
- results.txt
- src_vocab.txt
- trg_vocab.txt
- src.bpe
- [trg.bpe if the bpe model is not joint with src]
- config.yaml
- any other files, if you have any
Пример:
/benchmarks
/en-xh
/xhnavy-data-baseline
- notebook.ipynb
- README.md
- test.xh
- test.en
- results.txt
- src_vocab.txt
- trg_vocab.txt
- en-xh.4000.bpe
- config.yaml
- preprocessing.py
Вот ссылка на запрос на тягу, которая имеет соответствующие вещи.
Чувствуете нервничать из -за того, что внесли свой первый запрос на привлечение или не уверены, как продолжить? Пожалуйста, не чувствуйте себя обескураженным! Оставьте нам электронное письмо или сообщение о слабом, и мы будем работать вместе, чтобы получить ваш вклад в форму корабля!
Прохладный! Таким образом, есть много способов улучшить результаты. Мы подняли несколько из них в этом документе. Есть другие идеи? Бросьте нам линию или отправьте PR!
Мы хотели бы подчеркнуть, как ни одна из обученных моделей не подходит для использования производства . В нашей статье здесь мы исследуем эффекты производительности обучения такой модели на наборах данных JW300 - модели все еще не могут обобщать нерелигиозные домены. Как правило, никогда не следует развернуть модель NLP в домене, для которой она не была обучена. И даже если он обучен соответствующему домену, следует подробно проанализировать модель, чтобы понять смещения и потенциальный вред . Эти модели направлены на то, чтобы служить работой , чтобы стимулировать больше исследований и лучше понять неудачу таких систем.
См. Кодекс поведения
Бибтекс
@article{nekoto2020participatory,
title={Participatory research for low-resourced machine translation: A case study in african languages},
author={{$forall$}, { } and Nekoto, Wilhelmina and Marivate, Vukosi and Matsila, Tshinondiwa and Fasubaa, Timi and Kolawole, Tajudeen and Fagbohungbe, Taiwo and Akinola, Solomon Oluwole and Muhammad, Shamsuddee Hassan and Kabongo, Salomon and Osei, Salomey and others},
journal={Findings of EMNLP},
year={2020}
}