LM Critic下载LM Critic源代码下载

LM Critic

Ai源码

1.0.0

下载

LM-Critic：无监督的语法校正语言模型

该回购提供了我们论文的源代码和数据：LM-Critic：无监督语法误差校正的语言模型（EMNLP 2021）。

 @InProceedings { yasunaga2021language ,
  author =  { Michihiro Yasunaga and Jure Leskovec and Percy Liang } ,
  title =   { LM-Critic: Language Models for Unsupervised Grammatical Error Correction } ,
  year =    { 2021 } ,  
  booktitle = { Empirical Methods in Natural Language Processing (EMNLP) } ,  
}

概述

我们开发了一种新方法，使用验证的语言模型（例如GPT2）来预测句子是否是语法，我们称之为LM-Critic 。您可以按照下面的第1节中所述使用此LM-Critic。如果语言模型比本地社区中的候选人分配了更高的概率，那么想法是将句子视为语法。

然后，我们使用LM-Critic使用BIFI算法从未标记的原始文本生成训练数据，以进行语法误差校正（GEC）。这使我们能够以无监督的方式训练GEC模型。请参阅下面的第2节。

LM-Critic的工作原理

GEC的LM-Critic ：我们使用LM-Critic学习GEC模型

0。依赖项

运行以下命令来创建CONDA环境（假设CUDA10.1）：

conda create -n lm-critic python=3.8
conda activate lm-critic
pip install torch==1.6.0 torchvision==0.7.0
pip install transformers==4.3.3 datasets==1.3.0 absl-py rouge-score
pip install nltk wandb editdistance spacy==3.0.5
python3 -m nltk.downloader punkt

要使用错误的得分手进行GEC评估，请分别创建另一个CONDA环境，如下：

conda create -n errant200 python=3.6
conda activate errant200
pip3 install errant==2.0.0
python3 -m spacy download en

1。使用LM-Critic

LM-Critic在critic/critic.py中定义。要玩它，您可以运行：

CUDA_VISIBLE_DEVICES=0 python3 critic/critic.py

这将提示您获取句子输入，并返回判断（好：语法，坏：不语法）以及输入句子的概率分数。例如，

 Enter a sentence: I like apple.
Bad! Your sentence log(p) = -22.333
Neighbor sentence with highest log(p): I like apples. (= -19.570)

Enter a sentence: I like apples.
Good! Your sentence log(p) = -19.570

要在测试套件上运行LM-Critic的内在评估，请运行：

CUDA_VISIBLE_DEVICES=0 python3 eval_critic/eval_critic.py

您可以像本脚本中所做的那样，导入您自己的代码的LM-Critic函数（ from critic.critic import gpt2_critic ）。

2。火车/运行语法错误校正模型

将工作目录更改为gec/ 。首先，通过运行./download_data.sh下载所有数据（GEC基准和培训数据）。

第0轮

在这里，我们在合成GEC数据上训练初始修复程序。在src/run-round0.sh中运行命令。

这对应于纸表4中的“变压器”基线。
原始的合成数据是从这里下载的，我们的处理数据可在data/round0__synthetic/synthetic_paired_data_9M.json上获得。

第一轮

在这里，我们使用BIFI算法和未标记的文本数据来训练改进的修复程序。在src/run-round1.sh中运行命令。

具体而言，我们执行以下四个步骤：（a）将当前的修复程序（从第0轮）应用于未标记的句子，并将LM-Critic法官保持良好的输出；（b）在步骤（a）中生成的配对数据上训练断路器；（c）将受过训练的断路器应用于未标记的句子上，并使LM-Critic法官不好的产出；（d）到目前为止生成的配对数据（步骤（a） +步骤（C） +综合数据）。
这对应于纸张表4中的“+ bifi”。
原始未标记的文本数据从Yahoo！回答数据集和Wikipedia修订数据集（我们进行句子预修订）。我们在步骤（d）中使用的处理配对数据可在data/round1__BIFI/BIFI_paired_data_9M.json上找到。

为了进行评估，我们使用错误和m^2scorer。错误是在上述CONDA环境中设置的（Errant200），并在下载脚本中设置了M^2Scorer。

展开

附加信息