Téléchargement LM Critic - Téléchargement du code source LM Critic

LM Critic

Code Source AI

1.0.0

Télécharger

LM-Critique: Modèles de langue pour la correction d'erreur grammaticale non supervisée

Ce dépôt fournit le code source et les données de notre article: LM-Critique: Modèles de langue pour la correction d'erreur grammaticale non supervisée (EMNLP 2021).

 @InProceedings { yasunaga2021language ,
  author =  { Michihiro Yasunaga and Jure Leskovec and Percy Liang } ,
  title =   { LM-Critic: Language Models for Unsupervised Grammatical Error Correction } ,
  year =    { 2021 } ,  
  booktitle = { Empirical Methods in Natural Language Processing (EMNLP) } ,  
}

Aperçu

Nous avons développé une nouvelle méthode pour utiliser un modèle de langue pré-étendue (par exemple GPT2) pour prédire si une phrase est grammaticale, que nous appelons LM-Critique . Vous pouvez jouer avec ce LM-Critique comme décrit dans la section 1. Ci-dessous. L'idée est de considérer qu'une phrase est grammaticale si le modèle de langue lui attribue une probabilité plus élevée que les candidats dans son quartier local.

Nous utilisons ensuite le LM-Critique pour générer des données de formation pour la correction d'erreur grammaticale (GEC) à partir de texte brut non étiqueté, en utilisant l'algorithme BIFI. Cela nous permet de former des modèles GEC de manière non supervisée. Voir la section 2. Ci-dessous.

Comment fonctionne LM-Critic

LM-Critique pour GEC : Nous utilisons LM-Critic pour apprendre les modèles GEC

0. Dépendances

Exécutez les commandes suivantes pour créer un environnement conda (en supposant CUDA10.1):

conda create -n lm-critic python=3.8
conda activate lm-critic
pip install torch==1.6.0 torchvision==0.7.0
pip install transformers==4.3.3 datasets==1.3.0 absl-py rouge-score
pip install nltk wandb editdistance spacy==3.0.5
python3 -m nltk.downloader punkt

Pour utiliser le marqueur errant pour l'évaluation GEC, créez un autre environnement Conda séparément, comme suit:

conda create -n errant200 python=3.6
conda activate errant200
pip3 install errant==2.0.0
python3 -m spacy download en

1. Utilisez LM-Critic

Le LM-Critique est défini dans critic/critic.py . Pour jouer avec, vous pouvez courir:

CUDA_VISIBLE_DEVICES=0 python3 critic/critic.py

Cela vous incitera à une apport de phrase et renvoie le jugement (bon: grammatical, mauvais: non grammatical) avec le score de probabilité de la phrase d'entrée. Par exemple,

 Enter a sentence: I like apple.
Bad! Your sentence log(p) = -22.333
Neighbor sentence with highest log(p): I like apples. (= -19.570)

Enter a sentence: I like apples.
Good! Your sentence log(p) = -19.570

Pour exécuter l'évaluation intrinsèque de LM-Critique sur une suite de test, exécutez:

CUDA_VISIBLE_DEVICES=0 python3 eval_critic/eval_critic.py

Vous pouvez importer la fonction LM-Critique ( from critic.critic import gpt2_critic ) pour votre propre code comme fait dans ce script.

2. Modèles de correction d'erreur grammaticaux de train / exécution

Modifiez le répertoire de travail en gec/ . Tout d'abord, téléchargez toutes les données (repères GEC et données de formation) en exécutant ./download_data.sh .

Round 0

Ici, nous formons un fixateur initial sur les données GEC synthétiques. Exécutez les commandes dans src/run-round0.sh .

Cela correspond à la ligne de base "Transformer" dans le tableau papier 4.
Les données synthétiques d'origine ont été téléchargées à partir d'ici, et nos données traitées sont disponibles sur data/round0__synthetic/synthetic_paired_data_9M.json

Round 1

Ici, nous utilisons l'algorithme BIFI et les données de texte non marquées pour former un fixateur amélioré. Exécutez les commandes dans src/run-round1.sh .

Plus précisément, nous effectuons les quatre étapes suivantes: (a) Appliquer le fixateur actuel (du tour 0) aux phrases non marquées et conserver les sorties que les juges CRITIC LM-critiques; (b) former un disjoncteur sur les données appariées générées à l'étape (a); (c) appliquer le disjoncteur qualifié sur les phrases non marquées et garder les sorties que LM-Critic juges comme mauvaises; (d) Former le fixateur sur les données appariées générées jusqu'à présent (étape (a) + étape (c) + données synthétiques de Round0).
Cela correspond au "+ bifi" dans le tableau papier 4.
Les données de texte non marquées d'origine ont été téléchargées à partir de Yahoo! Réponse DataSet et Wikipedia Revision Dataset (nous prenons des phrases pré-révision). Nos données appariées traitées utilisées à l'étape (D) sont disponibles sur data/round1__BIFI/BIFI_paired_data_9M.json

Pour l'évaluation, nous utilisons Errant et m ^ 2Scorer. Errant est configuré dans l'environnement conda décrit ci-dessus (Errant200) et M ^ 2Scorer est configuré dans le script de téléchargement.

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-09-06
taille 3.44MB
Provenant de Github

Applications connexes

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Production de pages Web de confession en ligne LM Code source PHP version embellie version officielle

2022-11-01

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout