Download portuguese_wsc - portuguese_wsc Download do código -fonte

portuguese_wsc

Código-Fonte de IA

ENIAC

Baixar

Desafio de Esquema Winograd português

Atualmente em desenvolvimento

Solver para Winograd Schema Challenge em português. As traduções portuguesas para o Winograd Schema Challenge originais também estão sendo propostas aqui.

Resultados preliminares foram apresentados em um artigo da conferência: Melo, Gabriela Souza de; Imaizumi, Vinicius A .; Cozman, Fabio Gagliardi. Esquemas Winograd em português. In: Encontro Nacional de Inteligênia Artificial E Computacional, 2019.

Configuração do projeto

Este projeto não foi testado em máquinas sem GPUs CUDA disponíveis.
Um Dockerfile está disponível e pode ser usado com docker build -t wsc_port . seguido por nvidia-docker run -it -v $PWD/models:/code/models wsc_port <desired_command> (ou seja, nvidia-docker run -it -v $PWD/models:/code/models wsc_port python -m src.main ).
O arquivo Docker-Comppose contém algumas opções diferentes para executar o código, que podem ser executadas com comandos como: docker-compose run <service_name> (ou seja, docker-compose run train ). Para o Jupyter-Server, execute com docker-compose run --service-ports jupyter-server (senha para acessar a página da web para ela é root ).
Para correr para fora do recipiente do Docker, é necessário o CONDA.
- Para criar o ambiente do conda: conda env create -f environment.yml
O Makefile contém alguns dos comandos usados para executar o código. Esses comandos devem ser executados de dentro do ambiente.
- Para configurar o ambiente para executar o projeto: make dev-init . Este comando também garante que make processed-data sejam executados, que prepara os dados necessários para treinar o modelo
  - Os dados correspondentes ao corpus que estão sendo usados estão organizados da seguinte forma:
    - Dados brutos: Arquivos usados para gerar a coleção final de esquema de esquema Winograd
    - Dados externos: o arquivo XML compactado, como baixado do arquivo de despejo da Wikipedia
    - Dados intermediários: arquivos TXT extraídos do acima. Pode ou não ser dividido entre arquivos diferentes e menores
    - Dados processados: arquivos TXT, contendo o texto dividido entre as divisões de trem, teste e validação. Ele também contém a coleção de esquema de esquema Winograd gerada JSONS.
      - Além disso, make reduced-processed-data reduz o tamanho de cada uma dessas divisões
- A corrida make corpus acelerará a primeira execução de código (mas não é necessária)
- make train um modelo
- make winograd-test Runs Of Winograd Schema Challenge
- make generate Runs Language Model para geração de texto
O código é executado para casos de inglês e português, e essa configuração é controlada pela variável PORTUGUESE em src.consts .
Execute testes com make tests , o que é equivalente a pytest --cov=src tests/ . Use pytest --cov=src --cov-report=html tests/ para geração de relatório de teste html. Precisa de pacotes Pytest e Pytest-CoV. Se houver erros de importação, execute pip install -e . Para instalar localmente o pacote do código -fonte.

Geração de coleção Winograd

Há também código neste repositório para gerar o Winograd Schema Collection JSON, a partir do arquivo HTML original, para estar pronto para ser usado pelo solucionador. Esta geração acontece executando python -m src.winograd_collection_manipulation.wsc_subsets_generation . Para gerar a versão com nomes traduzidos, após esse primeiro comando, basta executar python -m src.winograd_collection_manipulation.name_replacer . Esses comandos não precisam ser chamados para poder executar o solucionador, já que o arquivo JSON já está presente neste repositório. No entanto, esse código está sendo disponibilizado, caso possa ajudar nas traduções para o desafio para outros idiomas.

Organização do projeto

 ├── LICENSE
├── Makefile           <- Makefile with commands like `make data` or `make train`.
├── README.md          <- The top-level README for developers using this project.
├── environment.yml    <- Contains project's requirements, generated from Anaconda environment.
├── setup.py           <- makes project pip installable (pip install -e .) so src can be imported.
│
├── data
│   ├── external       <- Data from third party sources.
│   ├── interim        <- Intermediate data that has been transformed.
│   ├── processed      <- The final, canonical data sets for modeling.
│   └── raw            <- The original, immutable data dump.
│
├── githooks           <- Contains githooks scripts being used for development. Git hook directory for repo needs to be set to this folder.
│
├── models             <- Trained and serialized models, model predictions, or model summaries. Gitignored due to their size.
│
├── notebooks          <- Jupyter notebooks, used during experimentation and testing.
│
├── src                <- Source code for use in this project.
│   ├── __init__.py    <- Makes src a Python module.
└── tests              <- Tests module, using Pytest.

Projeto com base no modelo de projeto de ciência de dados CookieCutter. #COOKIECTUTTERDATASCIENCE

Referências

Código para Modelo de Língua baseado no exemplo de Modelagem de Linguagem de Palavras de Pytorch RNN Exemplo
Código para paralelização do modelo Pytorch baseado no pacote de codificação de Pytorch com a ajuda desta postagem média.
Ideia de usar o Modelo de Linguagem para resolver o Desafio do Esquema Winograd com base no artigo "Um método simples de raciocínio de senso comum", de Trieu H. Trinh e Quoc V. Le, 2018.

Expandir

Informações adicionais

Versão ENIAC
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-10
tamanho 64.12MB
Vindo de Github

Aplicativos Relacionados

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Cachorro_Fox_Coelho

2022-08-01
Mecanismo de análise de dados Lihua versão gratuita 3.0_search_navigation_collection_public parecer_ranking_api

2022-06-28

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos