Unduh LM Critic - Unduh Kode Sumber LM Critic

LM Critic

Kode Sumber AI

1.0.0

Unduh

LM-CRITIC: Model bahasa untuk koreksi kesalahan tata bahasa yang tidak diawasi

Repo ini menyediakan kode sumber & data dari makalah kami: LM-CRITIC: Model bahasa untuk koreksi kesalahan tata bahasa tanpa pengawasan (EMNLP 2021).

 @InProceedings { yasunaga2021language ,
  author =  { Michihiro Yasunaga and Jure Leskovec and Percy Liang } ,
  title =   { LM-Critic: Language Models for Unsupervised Grammatical Error Correction } ,
  year =    { 2021 } ,  
  booktitle = { Empirical Methods in Natural Language Processing (EMNLP) } ,  
}

Ringkasan

Kami mengembangkan metode baru untuk menggunakan model bahasa pretrained (misalnya GPT2) untuk memprediksi apakah suatu kalimat bersifat tata bahasa, yang kami sebut LM-Critic . Anda dapat bermain dengan LM-Critic ini seperti yang dijelaskan dalam Bagian 1. Di bawah ini. Idenya adalah untuk menganggap kalimat sebagai tata bahasa jika model bahasa memberikan probabilitas yang lebih tinggi daripada kandidat di lingkungan setempat.

Kami kemudian menggunakan LM-Critic untuk menghasilkan data pelatihan untuk koreksi kesalahan tata bahasa (GEC) dari teks mentah yang tidak berlabel, menggunakan algoritma bifi. Ini memungkinkan kami untuk melatih model GEC dengan cara yang tidak diawasi. Lihat Bagian 2. Di bawah ini.

Bagaimana LM-Critic bekerja

LM-CRITIC UNTUK GEC : Kami menggunakan LM-Critic untuk mempelajari model GEC

0. Ketergantungan

Jalankan perintah berikut untuk membuat lingkungan Conda (dengan asumsi CUDA10.1):

conda create -n lm-critic python=3.8
conda activate lm-critic
pip install torch==1.6.0 torchvision==0.7.0
pip install transformers==4.3.3 datasets==1.3.0 absl-py rouge-score
pip install nltk wandb editdistance spacy==3.0.5
python3 -m nltk.downloader punkt

Untuk menggunakan pencetak gol terberat untuk evaluasi GEC, buat lingkungan Conda lain secara terpisah, sebagai berikut:

conda create -n errant200 python=3.6
conda activate errant200
pip3 install errant==2.0.0
python3 -m spacy download en

1. Gunakan LM-Critic

LM-Critic didefinisikan dalam critic/critic.py . Untuk bermain dengannya, Anda dapat menjalankan:

CUDA_VISIBLE_DEVICES=0 python3 critic/critic.py

Ini akan mendorong Anda untuk input kalimat, dan mengembalikan penilaian (baik: tata bahasa, buruk: tidak kuas) bersama dengan skor probabilitas kalimat input. Misalnya,

 Enter a sentence: I like apple.
Bad! Your sentence log(p) = -22.333
Neighbor sentence with highest log(p): I like apples. (= -19.570)

Enter a sentence: I like apples.
Good! Your sentence log(p) = -19.570

Untuk menjalankan evaluasi intrinsik LM-Critic pada test suite, jalankan:

CUDA_VISIBLE_DEVICES=0 python3 eval_critic/eval_critic.py

Anda dapat mengimpor fungsi kritik LM ( from critic.critic import gpt2_critic ) untuk kode Anda sendiri seperti yang dilakukan dalam skrip ini.

2. Model Koreksi Kesalahan Latih/Jalankan

Ubah direktori kerja ke gec/ . Pertama, unduh semua data (tolok ukur GEC dan data pelatihan) dengan menjalankan ./download_data.sh .

Babak 0

Di sini kami melatih fixer awal tentang data GEC sintetis. Jalankan perintah di src/run-round0.sh .

Ini sesuai dengan garis dasar "transformator" di Tabel 4.
Data sintetis asli dimuat dari sini, dan data yang diproses kami tersedia di data/round0__synthetic/synthetic_paired_data_9M.json

Babak 1

Di sini kami menggunakan algoritma BIFI dan data teks yang tidak berlabel untuk melatih fixer yang lebih baik. Jalankan perintah di src/run-round1.sh .

Secara khusus, kami melakukan empat langkah berikut: (a) Terapkan fixer saat ini (dari putaran 0) ke kalimat yang tidak berlabel dan menjaga output yang dinilai oleh LM-Critic sebagai baik; (B) melatih pemutus pada data berpasangan yang dihasilkan pada langkah (a); (c) Menerapkan pemutus terlatih pada kalimat yang tidak berlabel dan menjaga output yang dijatuhkan oleh LM-Critic Hakim; (D) Latih fixer pada data berpasangan yang dihasilkan sejauh ini (langkah (a) + langkah (c) + data sintetis dari putaran0).
Ini sesuai dengan "+ bifi" di tabel kertas 4.
Data teks yang tidak berlabel asli diunduh dari Yahoo! Jawab Dataset dan Dataset Revisi Wikipedia (Kami Mengambil Kalimat Pra Revisi). Data berpasangan kami yang diproses digunakan dalam langkah (d) tersedia di data/round1__BIFI/BIFI_paired_data_9M.json

Untuk evaluasi, kami menggunakan ERRANT dan M^2Scorer. Errant diatur dalam lingkungan CONDA yang dijelaskan di atas (errant200) dan m^2Scorer diatur dalam skrip unduhan.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-09-06
ukuran 3.44MB
Berasal dari Github

Aplikasi Terkait

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Halaman web pengakuan online LM memproduksi kode sumber PHP versi yang dipercantik versi resmi

2022-11-01

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua