Скачать portuguese_wsc

portuguese_wsc

AI Исходный код

ENIAC

Скачать

Португальская схема схемы винограда

В настоящее время находится на стадии разработки

Solver for Winograd Schema Challenge на португальском языке. Португальские переводы для оригинальной схемы схемы Winograd также предлагаются здесь.

Предварительные результаты были представлены на конференции: Melo, Габриэла Соуза де; Имайзуми, Виниция А.; Козман, Фабио Гаглиарди. Схемы винограда на португальском языке. В: Encontro Nacional de Inteligência Artificial E Computaceional, 2019.

Настройка проекта

Этот проект не был проверен на машинах без доступных графических процессоров CUDA.
Довольныйфил доступен и может использоваться с docker build -t wsc_port . Затем следует nvidia-docker run -it -v $PWD/models:/code/models wsc_port <desired_command> (IE nvidia-docker run -it -v $PWD/models:/code/models wsc_port python -m src.main ).
Файл с докером содержит несколько различных параметров для запуска кода, которые можно запустить с такими командами, как: docker-compose run <service_name> (то есть docker-compose run train ). Для Jupyter-Server запустите с помощью docker-compose run --service-ports jupyter-server (пароль для доступа к веб-странице для нее является root ).
Для бега за пределами контейнера Docker требуется Conda.
- Для создания среды Conda: conda env create -f environment.yml
Makefile содержит некоторые команды, используемые для запуска кода. Эти команды должны выполняться изнутри окружающей среды.
- Чтобы настроить среду для запуска проекта: make dev-init . Эта команда также гарантирует, make processed-data , что готовит данные, необходимые для обучения модели
  - Данные, соответствующие используемому корпусу, организованы следующим образом:
    - Необработанные данные: файлы, используемые для генерации окончательной схемы схемы схемы Winograd
    - Внешние данные: сжатый XML -файл, как загружено из архива дампа Википедии
    - Промежуточные данные: файлы TXT, извлеченные из вышеизложенного. Может быть или не быть разделенным между разными, меньшими файлами
    - Обработанные данные: файлы TXT, содержащие текст, разделенный между поездами, тестированием и валидацией. Он также содержит сгенерированную коллекцию схемы схемы схемы Winograd Jsons.
      - Кроме того, make reduced-processed-data уменьшает размер каждого из этих разделов
- Запуск make corpus ускорит первый запуск кода (но не обязательно)
- make train поезда моделью
- make winograd-test , пробегает оценку схемы схемы винограда
- make generate языковые модели для генерации текста
Код работает как для английских, так и для португальских случаев, и эта настройка контролируется переменной PORTUGUESE в src.consts .
Запустите тесты с помощью make tests , которые эквивалентны pytest --cov=src tests/ . Используйте pytest --cov=src --cov-report=html tests/ для генерации отчета о тестировании HTML. Нужны пакеты Pytest и Pytest-Cov. Если есть ошибки импорта, следует запустить pip install -e . Чтобы локально установить пакет из исходного кода.

Поколение коллекций Winograd

В этом репозитории также существует код для создания коллекции схемы Winograd JSON, из оригинального HTML -файла, который будет готов к использованию решателем. Это поколение происходит путем выполнения python -m src.winograd_collection_manipulation.wsc_subsets_generation . Чтобы сгенерировать версию с переведенными именами, после этой первой команды просто запустите python -m src.winograd_collection_manipulation.name_replacer . Эти команды не должны вызывать, чтобы иметь возможность запускать решатель, учитывая, что файл JSON уже присутствует в этом репозитории. Тем не менее, этот код предоставляется доступным, если он может помочь с переводами для вызова на другие языки.

Проектная организация

 ├── LICENSE
├── Makefile           <- Makefile with commands like `make data` or `make train`.
├── README.md          <- The top-level README for developers using this project.
├── environment.yml    <- Contains project's requirements, generated from Anaconda environment.
├── setup.py           <- makes project pip installable (pip install -e .) so src can be imported.
│
├── data
│   ├── external       <- Data from third party sources.
│   ├── interim        <- Intermediate data that has been transformed.
│   ├── processed      <- The final, canonical data sets for modeling.
│   └── raw            <- The original, immutable data dump.
│
├── githooks           <- Contains githooks scripts being used for development. Git hook directory for repo needs to be set to this folder.
│
├── models             <- Trained and serialized models, model predictions, or model summaries. Gitignored due to their size.
│
├── notebooks          <- Jupyter notebooks, used during experimentation and testing.
│
├── src                <- Source code for use in this project.
│   ├── __init__.py    <- Makes src a Python module.
└── tests              <- Tests module, using Pytest.

Проект, основанный на шаблоне проекта Data Science CookieCutter. #cookiecutterdatascience

Ссылки

Код для языковой модели на основе Pytorch Language Modeling RNN Пример
Код для параллелизации модели Pytorch на основе пакета кодирования Pytorch с помощью этого среднего поста.
Идея использования языковой модели для решения проблем с схемой Winograd на основе статьи «Простой метод здравого смысла», Trieu H. Trinh и Quoc V. Le, 2018.

Расширять

Дополнительная информация