portuguese_wscダウンロードportuguese_wscソースコードのダウンロード

portuguese_wsc

AI ソースコード

ENIAC

ダウンロード

ポルトガルのウィノグラードスキーマチャレンジ

現在開発中です

ポルトガル語のWinograd Schema Challengeのソルバー。オリジナルのウィノグラードスキーマチャレンジのポルトガル語の翻訳もここで提案されています。

予備的な結果は、会議の論文で提示されました：メロ、ガブリエラ・ソーザ・デ。 imaizumi、Vinicius A.;コズマン、ファビオ・ガグリアルディ。ポルトガル語のウィングラードスキーマ。 In：Encontro nacional deinteligência人工e Computacional、2019。

プロジェクトのセットアップ

このプロジェクトは、CUDA GPUを利用できない機械でテストされていません。
dockerfileが利用可能で、 docker build -t wsc_port . nvidia-docker run -it -v $PWD/models:/code/models wsc_port <desired_command> （ie nvidia-docker run -it -v $PWD/models:/code/models wsc_port python -m src.main ）が続きます。
Docker-Composeファイルには、コードを実行するためのいくつかの異なるオプションが含まれています。これは、 docker-compose run <service_name> （すなわちdocker-compose run train ）などのコマンドで実行できます。 Jupyter-Serverの場合は、 docker-compose run --service-ports jupyter-serverで実行されます（Webページにアクセスするためのパスワードはrootです）。
Dockerコンテナの外を走るには、コンドラが必要です。
- Conda環境を作成するには： conda env create -f environment.yml
MakeFileには、コードの実行に使用されるコマンドの一部が含まれています。これらのコマンドは、環境内から実行する必要があります。
- プロジェクトを実行するための環境をセットアップするには： make dev-init 。また、このコマンドmake processed-dataが実行されるようにします。これにより、モデルをトレーニングするために必要なデータが準備されます。
  - 使用されているコーパスに対応するデータは、次のように編成されています。
    - 生データ：最終的なWinograd Schema Challenge Schema Collection Jsonsを生成するために使用されるファイル
    - 外部データ：ウィキペディアのダンプアーカイブからダウンロードされた圧縮XMLファイル
    - 暫定データ：上記から抽出されたTXTファイル。異なる、小さなファイルに分割される場合もありますか
    - 処理されたデータ：TXTファイル、トレーニング、テスト、検証分割の間に分割されたテキストが含まれています。また、生成されたWinograd Schema Challenge Schema Collection Jsonsも含まれています。
      - さらに、これらのスプリットのそれぞれのサイズをmake reduced-processed-data
- ランニングmake corpusコードの最初の実行をスピードアップします（ただし、必要ありません）
- make train
- Winograd Schema Challengeのmake winograd-testの評価を実行します
- テキストの生成の生成ラン言語モデルmake generate
コードは英語とポルトガルの両方のケースで実行され、この設定はsrc.constsの可変PORTUGUESE人によって制御されます。
make testsを使用したテストを実行します。これは、 pytest --cov=src tests/に相当します。 pytest --cov=src --cov-report=html tests/ HTMLテストレポートの生成に使用します。 pytestとpytest-covパッケージが必要です。インポートエラーがある場合は、 pip install -e .ソースコードからパッケージをローカルにインストールします。

Winograd Collection Generation

また、このリポジトリには、ソルバーが使用する準備が整うように、元のHTMLファイルからWinoGRAD Schema Collection JSONを生成するためのコードもあります。この世代はpython -m src.winograd_collection_manipulation.wsc_subsets_generationを実行することで発生します。翻訳された名前でバージョンを生成するには、その最初のコマンドの後、 python -m src.winograd_collection_manipulation.name_replacerを実行するだけです。これらのコマンドは、JSONファイルがこのリポジトリに既に存在していることを考えると、ソルバーを実行できるように呼び出される必要はありません。ただし、他の言語への課題の翻訳に役立つ場合に備えて、このコードが利用可能になっています。

プロジェクト組織

 ├── LICENSE
├── Makefile           <- Makefile with commands like `make data` or `make train`.
├── README.md          <- The top-level README for developers using this project.
├── environment.yml    <- Contains project's requirements, generated from Anaconda environment.
├── setup.py           <- makes project pip installable (pip install -e .) so src can be imported.
│
├── data
│   ├── external       <- Data from third party sources.
│   ├── interim        <- Intermediate data that has been transformed.
│   ├── processed      <- The final, canonical data sets for modeling.
│   └── raw            <- The original, immutable data dump.
│
├── githooks           <- Contains githooks scripts being used for development. Git hook directory for repo needs to be set to this folder.
│
├── models             <- Trained and serialized models, model predictions, or model summaries. Gitignored due to their size.
│
├── notebooks          <- Jupyter notebooks, used during experimentation and testing.
│
├── src                <- Source code for use in this project.
│   ├── __init__.py    <- Makes src a Python module.
└── tests              <- Tests module, using Pytest.

Cookiecutterデータサイエンスプロジェクトテンプレートに基づくプロジェクト。 #cookiecutterdatascience

参照

Pytorchの単語レベルの言語モデリングRNN例に基づく言語モデルのコード
この媒体投稿のヘルプを備えたPytorch-Encodingパッケージに基づくPytorchモデルの並列化のコード。
Trieu H. TrinhとQuoc V. Le、2018年、「記念的な推論のための簡単な方法」に基づいて、Winogradスキーマチャレンジを解くために言語モデルを使用するというアイデア。

拡大する

追加情報