DataAugmentationNMT ดาวน์โหลด - DataAugmentationNMT ซอร์สโค้ดดาวน์โหลดดาวน์โหลด

DataAugmentationNMT

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

dataaugmentationnmt

ที่เก็บนี้รวมถึงรหัสและสคริปต์สำหรับการเพิ่มข้อมูลที่กำหนดเป้าหมายคำที่หายากสำหรับการแปลเครื่องประสาทที่เสนอในบทความของเรา

การอ้างอิง

หากคุณใช้รหัสนี้โปรดอ้างอิง:

 @InProceedings{fadaee-bisazza-monz:2017:Short2,
  author    = {Fadaee, Marzieh  and  Bisazza, Arianna  and  Monz, Christof},
  title     = {Data Augmentation for Low-Resource Neural Machine Translation},
  booktitle = {Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)},
  month     = {July},
  year      = {2017},
  address   = {Vancouver, Canada},
  publisher = {Association for Computational Linguistics},
  pages     = {567--573},
  url       = {http://aclweb.org/anthology/P17-2090}
}

การพึ่งพาอาศัยกัน

TORCH7
nn
ดีที่สุด
Lua-cjson
TORCH-HDF5
Python 2.7

การใช้งาน

ขั้นตอนที่ 1: การประมวลผลข้อมูลล่วงหน้า

ก่อนที่จะฝึกอบรมแบบจำลองภาษาแบบ monolingual ใน [SRC/TRG] คุณจะต้องประมวลผลข้อมูลล่วงหน้าสำหรับทิศทางไปข้างหน้าและย้อนกลับโดยใช้ preprocess.no_preset_v.py

 python src/preprocess.no_preset_v.py --train_txt ./wiki.train.txt 
--val_txt ./wiki.val.txt --test_txt ./wiki.test.txt 
--output_h5 ./data.h5 --output_json ./data.json

สิ่งนี้จะสร้างไฟล์ data.h5 และ data.json ที่จะถูกส่งผ่านไปยังสคริปต์การฝึกอบรม

ขั้นตอนที่ 2: การฝึกอบรมรูปแบบภาษา

หลังจากประมวลผลข้อมูลล่วงหน้าคุณจะต้องฝึกอบรมแบบจำลองภาษาสองแบบในทิศทางไปข้างหน้าและย้อนหลัง

 th src/train.lua -input_h5 data.h5 -input_json data.json 
-checkpoint_name models_rnn/cv  -vocabfreq vocab_freq.trg.txt 

th src/train.lua -input_h5 data.rev.h5 -input_json data.rev.json 
-checkpoint_name models_rnn_rev/cv  -vocabfreq vocab_freq.trg.txt

มีธงอีกมากมายที่คุณสามารถใช้ในการกำหนดค่าการฝึกอบรม

อินพุต vocabfreq เป็นรายการความถี่ของคำในการตั้งค่าทรัพยากรต่ำที่ต้องการการเพิ่มในภายหลังโดยใช้แบบจำลองภาษาเหล่านี้ รูปแบบคือ:

 ...
change 3028
taken 3007
large 2999
again 2994
...

ขั้นตอนที่ 3: การสร้างการทดแทน

หลังจากฝึกอบรมแบบจำลองภาษาคุณสามารถสร้างประโยคใหม่ใน bitext ของคุณสำหรับ [src trg] คุณสามารถเรียกใช้สิ่งนี้:

 th src/substitution.lua -checkpoint models_rnn/cv_xxx.t7 -start_text train.en 
-vocabfreq vocab_freq.trg.txt -sample 0 -topk 1000 -bwd 0 > train.en.subs

th src/substitution.lua -checkpoint models_rev.rnn/cv_xxx.t7 -start_text train.en.rev 
-vocabfreq vocab_freq.trg.txt -sample 0 -topk 1000 -bwd 1 > train.en.rev.subs

start_text เป็นด้านข้างของ bitext ที่คุณกำหนดเป้าหมายเพื่อเพิ่มคำที่หายาก vocabfreq เป็นรายการความถี่ที่ใช้ในการตรวจจับคำที่หายาก topk ระบุจำนวนการทดแทนสูงสุดที่คุณต้องการสำหรับแต่ละตำแหน่งในประโยค

การใช้รหัสทั้งสองนี้จะช่วยให้คุณได้รับการเติมเงินในรายการการทดแทนด้านหนึ่ง: train.en.subs และ train.en.rev.subs ในการค้นหาสารที่ตรงกับบริบทที่ดีที่สุดคุณจะต้องค้นหาจุดตัดของสองรายการนี้:

 perl ./scripts/generate_intersect.pl train.en.subs train.en.rev.subs subs.intersect

subs.intersect มีการแทนที่ที่สามารถใช้เพื่อเพิ่ม bitext นี่คือตัวอย่างของผลลัพธ์:

 information where we are successful will be published in this unk .
information{}
where{}
we{doctors:136 humans:135}
are{became:764 remained:245}
successful{}
will{}
be{}
published{interested:728 introduced:604 kept:456 performed:289 placed:615 played:535 released:477 written:790}
in{behind:932 beyond:836}
this{henry:58}
unk{}
.{}

บรรทัดแรกคือประโยคดั้งเดิมและแต่ละบรรทัดหลังจากนั้นเป็นคำในประโยคและการแทนที่ที่แนะนำด้วยความถี่ที่เกี่ยวข้อง

ขั้นตอนที่ 4: สร้าง Corpora ที่เพิ่มขึ้น

การใช้เอาท์พุทการทดแทนด้าน [TRG/SRC] ของ Bitext การจัดตำแหน่งและไฟล์ความน่าจะเป็นคำศัพท์ที่คุณสามารถสร้าง Corpora ที่เพิ่มขึ้น

คุณสามารถใช้ fast_align เพื่อรับการจัดตำแหน่งสำหรับ bitext ของคุณ รูปแบบของอินพุตการจัดตำแหน่งคือ:

 ...
0-0 1-10 2-3 2-4 2-5 3-13 4-14 5-8 5-9 6-16 7-14 8-11 10-6 11-7 12-17
0-0 1-0 2-0 2-2 3-1 3-3 4-5 5-5 6-6 8-8 9-9 10-10 11-11
...

อินพุตความน่าจะเป็นคำศัพท์สามารถรับได้จากพจนานุกรมหรือการจัดตำแหน่ง รูปแบบคือ:

 ...
safely sicher 0.0051237409068
safemode safemode 1
safeness antikollisionssystem 0.3333333
safer sicherer 0.09545972221228
...

เพื่อสร้าง bitxt ที่เพิ่มขึ้นคุณสามารถเรียกใช้:

 perl ./scripts/data_augmentation.pl subs.intersect train.de alignment.txt lex.txt augmentedOutput

สิ่งนี้จะสร้างสองไฟล์: augmentedOutput.augmented ใน [SRC/TRG] และ augmentedOutput.fillout ในภาษา [TRG/SRC] ไฟล์แรกคือด้านข้างของ bitext เพิ่มการกำหนดเป้าหมายคำที่หายาก ไฟล์ที่สองคือการแปลตามลำดับของประโยคที่เพิ่มขึ้น

หากคุณต้องการเปลี่ยนแปลงมากกว่าหนึ่งประโยคในแต่ละประโยคคุณสามารถเรียกใช้:

 perl ./scripts/data_augmentation_multiplechanges.pl subs.intersect train.de alignment.txt lex.txt augmentedOutput

ตัวอย่างของเอาต์พุต

นี่คือประโยคจากไฟล์ Augmented ใน [SRC/TRG]:

 at the same time , the rights of consumers began:604~need to be maintained .

และประโยคที่เกี่ยวข้องจากไฟล์ Fillout ใน [TRG/SRC]:

 gleichzeitig begann~müssen die rechte der verbraucher geschützt werden .

ในไฟล์ Augmented คำ เริ่มต้น ด้วย Frequncy 604 แทนคำ ที่ต้องการ ในไฟล์ Fillout การแปลของคำ เริ่มต้น ใช้แทนคำต้นฉบับ Müssen

ขั้นตอนที่ 5: สร้าง Clean Bitext สำหรับการแปล

ในการลบ Markups ทั้งหมดและมี bitext ที่สะอาดซึ่งสามารถใช้สำหรับการฝึกอบรมการแปลคุณสามารถเรียกใช้:

 perl ./scripts/filter_out_augmentations.pl augmentedOutput.en augmentedOutput.de 1000

คุณสามารถกำหนดขีด จำกัด ความถี่เพิ่มเติมเกี่ยวกับคำที่หายากที่คุณต้องการเพิ่มที่นี่

กิตติกรรมประกาศ

ในงานนี้ใช้รหัสนี้:

Torch-rnn ของ Justin Johnson

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-09-09
ขนาด 163.75KB
มาจาก Github

แอปที่เกี่ยวข้อง

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด