ดาวน์โหลด mlm scoring - ดาวน์โหลดซอร์สโค้ด mlm scoring

mlm scoring

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

การให้คะแนนแบบจำลองภาษาที่สวมหน้ากาก

แพ็คเกจนี้ใช้ LMS ที่สวมหน้ากากเช่น Bert, Roberta และ XLM เพื่อให้คะแนนประโยคและ Rescore N-Best List ผ่าน คะแนนความน่าจะเป็นแบบหลอกหลอก ซึ่งคำนวณโดยการปิดบังคำแต่ละคำ นอกจากนี้เรายังรองรับ LMS แบบอัตโนมัติเช่น GPT-2 ตัวอย่างการใช้งานรวม:

การรู้จำเสียงพูด: การช่วยเหลือแบบจำลอง ESPNET LAS (Librispeech)
การแปลของเครื่อง: การช่วยเหลือโมเดล NMT ของหม้อแปลง (iwslt'15 en-vi)
การยอมรับภาษาศาสตร์: การจัดอันดับที่ไม่ได้รับการดูแลภายในคู่น้อยที่สุดทางภาษา (Blimp)

กระดาษ: Julian Salazar, Davis Liang, Toan Q. Nguyen, Katrin Kirchhoff "การให้คะแนนแบบจำลองภาษาที่สวมหน้ากาก", ACL 2020

การติดตั้ง

ต้องใช้ Python 3.6+ โคลนที่เก็บนี้และติดตั้ง:

pip install -e .
pip install torch mxnet-cu102mkl  # Replace w/ your CUDA version; mxnet-mkl if CPU only.

บางรุ่นผ่าน Gluonnlp และรุ่นอื่น ๆ ผ่าน? Transformers ดังนั้นตอนนี้เราต้องการทั้ง MXNET และ PYTORCH ตอนนี้คุณสามารถนำเข้าห้องสมุดได้โดยตรง:

 from mlm . scorers import MLMScorer , MLMScorerPT , LMScorer
from mlm . models import get_pretrained
import mxnet as mx
ctxs = [ mx . cpu ()] # or, e.g., [mx.gpu(0), mx.gpu(1)]

# MXNet MLMs (use names from mlm.models.SUPPORTED_MLMS)
model , vocab , tokenizer = get_pretrained ( ctxs , 'bert-base-en-cased' )
scorer = MLMScorer ( model , vocab , tokenizer , ctxs )
print ( scorer . score_sentences ([ "Hello world!" ]))
# >> [-12.410664200782776]
print ( scorer . score_sentences ([ "Hello world!" ], per_token = True ))
# >> [[None, -6.126736640930176, -5.501412391662598, -0.7825151681900024, None]]

# EXPERIMENTAL: PyTorch MLMs (use names from https://huggingface.co/transformers/pretrained_models.html)
model , vocab , tokenizer = get_pretrained ( ctxs , 'bert-base-cased' )
scorer = MLMScorerPT ( model , vocab , tokenizer , ctxs )
print ( scorer . score_sentences ([ "Hello world!" ]))
# >> [-12.411025047302246]
print ( scorer . score_sentences ([ "Hello world!" ], per_token = True ))
# >> [[None, -6.126738548278809, -5.501765727996826, -0.782496988773346, None]]

# MXNet LMs (use names from mlm.models.SUPPORTED_LMS)
model , vocab , tokenizer = get_pretrained ( ctxs , 'gpt2-117m-en-cased' )
scorer = LMScorer ( model , vocab , tokenizer , ctxs )
print ( scorer . score_sentences ([ "Hello world!" ]))
# >> [-15.995375633239746]
print ( scorer . score_sentences ([ "Hello world!" ], per_token = True ))
# >> [[-8.293947219848633, -6.387561798095703, -1.3138668537139893]]

(อินเทอร์เฟซ MXNET และ PYTORCH จะรวมเป็นหนึ่งในไม่ช้า!)

การให้คะแนน

เรียกใช้ mlm score --help เพื่อดูรุ่นที่รองรับ ฯลฯ ดู examples/demo/format.json สำหรับรูปแบบไฟล์ สำหรับอินพุต "คะแนน" เป็นทางเลือก เอาต์พุตจะเพิ่มฟิลด์ "คะแนน" ที่มีคะแนน PLL

มีสามประเภทคะแนนขึ้นอยู่กับรุ่น:

Pseudo-Log-Likelihood คะแนน (PLL): Bert, Roberta, Bert หลายภาษา, XLM, Albert, Distilbert
คะแนน PLL Maskless: Same (Add --no-mask )
คะแนนบันทึกความน่าจะเป็น: GPT-2

เราให้คะแนนสมมติฐานสำหรับ 3 คำพูดของ librispeech dev-other บน GPU 0 โดยใช้ Bert Base (uncased):

mlm score 
    --mode hyp 
    --model bert-base-en-uncased 
    --max-utts 3 
    --gpus 0 
    examples/asr-librispeech-espnet/data/dev-other.am.json 
    > examples/demo/dev-other-3.lm.json

การช่วยชีวิต

หนึ่งสามารถช่วยเหลือรายการ N-Best ที่ดีที่สุดผ่านการแก้ไขเชิงเส้นเชิงเส้น เรียกใช้ mlm rescore --help เพื่อดูตัวเลือกทั้งหมด อินพุตหนึ่งคือไฟล์ที่มีคะแนนดั้งเดิม อินพุตสองเป็นคะแนนจาก mlm score

เราช่วยให้คะแนนอะคูสติก (จาก dev-other.am.json ) โดยใช้คะแนนของ Bert (จากส่วนก่อนหน้า) ภายใต้น้ำหนัก LM ที่แตกต่างกัน:

 for weight in 0 0.5 ; do
    echo " lambda= ${weight} " ; 
    mlm rescore 
        --model bert-base-en-uncased 
        --weight ${weight} 
        examples/asr-librispeech-espnet/data/dev-other.am.json 
        examples/demo/dev-other-3.lm.json 
        > examples/demo/dev-other-3.lambda- ${weight} .json
done