
ห้องสมุด Python นี้ช่วยคุณเพิ่ม NLP สำหรับโครงการเรียนรู้ของเครื่อง เยี่ยมชมบทนำนี้เพื่อทำความเข้าใจเกี่ยวกับการเพิ่มข้อมูลใน NLP Augmenter เป็นองค์ประกอบพื้นฐานของการเสริมในขณะที่ Flow เป็นท่อไปยังออร์เคสตร้ามัลติออสเมนต์ด้วยกัน


| ส่วน | คำอธิบาย |
|---|---|
| การสาธิตอย่างรวดเร็ว | วิธีใช้ห้องสมุดนี้ |
| เครื่องเพิ่ม | แนะนำวิธีการเสริมที่มีอยู่ทั้งหมด |
| การติดตั้ง | วิธีการติดตั้งไลบรารีนี้ |
| การเปลี่ยนแปลงล่าสุด | การปรับปรุงล่าสุด |
| การอ่านส่วนขยาย | ตัวอย่างชีวิตจริงหรือการวิจัยเพิ่มเติม |
| อ้างอิง | การอ้างอิงทรัพยากรภายนอกเช่นข้อมูลหรือรูปแบบ |
| เครื่องเพิ่ม | เป้า | เครื่องเพิ่ม | การกระทำ | คำอธิบาย |
|---|---|---|---|---|
| เป็นข้อความ | อักขระ | Keyboardaug | ทดแทน | จำลองข้อผิดพลาดระยะทางของแป้นพิมพ์ |
| เป็นข้อความ | ocraug | ทดแทน | จำลองข้อผิดพลาดของเครื่องยนต์ OCR | |
| เป็นข้อความ | การสุ่ม | แทรก, ทดแทน, แลกเปลี่ยน, ลบ | ใช้การเสริมแบบสุ่ม | |
| เป็นข้อความ | คำ | Antonymaug | ทดแทน | แทนที่คำที่มีความหมายตรงข้ามตามคำ Antonym WordNet |
| เป็นข้อความ | บริบท | แทรกแทน | การให้อาหารโดยรอบ Word to Bert, Distilbert, Roberta หรือ XLNet Model เพื่อค้นหาคำศัพท์ที่เหมาะสมที่สุดสำหรับการเสริม | |
| เป็นข้อความ | Randomwordaug | แลกเปลี่ยน, พืช, ลบ | ใช้การเสริมแบบสุ่ม | |
| เป็นข้อความ | การสะกดคำ | ทดแทน | คำแทนตามพจนานุกรมความผิดพลาดในการสะกดคำ | |
| เป็นข้อความ | แยกตัวออกจากกัน | แยก | แยกหนึ่งคำเป็นสองคำแบบสุ่ม | |
| เป็นข้อความ | คำพ้องความหมาย | ทดแทน | แทนที่คำที่คล้ายกันตามคำพ้องความหมายของ WordNet/ PPDB | |
| เป็นข้อความ | tfidfaug | แทรกแทน | ใช้ TF-IDF เพื่อค้นหาว่าควรเพิ่มคำอย่างไร | |
| เป็นข้อความ | Wordembsaug | แทรกแทน | ใช้ประโยชน์จาก Word2vec, Glove หรือ FastText Embeddings เพื่อใช้การเพิ่ม | |
| เป็นข้อความ | backtranslationaug | ทดแทน | ใช้ประโยชน์จากรูปแบบการแปลสองแบบสำหรับการเสริม | |
| เป็นข้อความ | สำรอง | ทดแทน | แทนที่คำที่สงวนไว้ | |
| เป็นข้อความ | ประโยค | บริบทคำว่า ForSentenceAug | แทรก | แทรกประโยคตามการทำนาย XLNET, GPT2 หรือ DistilGPT2 |
| เป็นข้อความ | abstsummaug | ทดแทน | สรุปบทความโดยวิธีการสรุปเชิงนามธรรม | |
| เป็นข้อความ | lambadaaug | ทดแทน | การใช้แบบจำลองภาษาเพื่อสร้างข้อความแล้วใช้แบบจำลองการจำแนกประเภทเพื่อรักษาผลลัพธ์ที่มีคุณภาพสูง | |
| สัญญาณ | เสียง | พืชผลไม้ | ลบ | ลบส่วนของเสียง |
| สัญญาณ | ความดัง | ทดแทน | ปรับระดับเสียงของเสียง | |
| สัญญาณ | Maskaug | ทดแทน | ส่วนของ Mask Audio | |
| สัญญาณ | Noaseaug | ทดแทน | ฉีดเสียง | |
| สัญญาณ | pitchaug | ทดแทน | ปรับระดับเสียงของเสียง | |
| สัญญาณ | กะ | ทดแทน | เลื่อนเวลาเวลาไปข้างหน้า/ ย้อนกลับ | |
| สัญญาณ | สปีด | ทดแทน | ปรับความเร็วของเสียง | |
| สัญญาณ | vtlpaug | ทดแทน | เปลี่ยนเส้นทางเสียง | |
| สัญญาณ | Normalizeaug | ทดแทน | ทำให้เสียงปกติ | |
| สัญญาณ | ขั้วโลก | ทดแทน | แลกเปลี่ยนบวกและลบสำหรับเสียง | |
| สัญญาณ | สเปคโตรรัม | FrequencyMaskingaug | ทดแทน | ตั้งบล็อกของค่าเป็นศูนย์ตามมิติความถี่ |
| สัญญาณ | timemaskingaug | ทดแทน | ตั้งบล็อกของค่าเป็นศูนย์ตามมิติเวลา | |
| สัญญาณ | ความดัง | ทดแทน | ปรับระดับเสียง |
| เครื่องเพิ่ม | เครื่องเพิ่ม | คำอธิบาย |
|---|---|---|
| ท่อส่ง | ตามลำดับ | ใช้รายการฟังก์ชั่นการเสริมตามลำดับ |
| ท่อส่ง | บางครั้ง | ใช้ฟังก์ชั่นการเสริมบางอย่างแบบสุ่ม |
ห้องสมุดรองรับ Python 3.5+ ในแพลตฟอร์ม Linux และ Window
เพื่อติดตั้งไลบรารี:
pip install numpy requests nlpaugหรือติดตั้งเวอร์ชันล่าสุด (รวมคุณสมบัติเบต้า) จาก GitHub โดยตรง
pip install numpy git+https://github.com/makcedward/nlpaug.gitหรือติดตั้งผ่าน conda
conda install -c makcedward nlpaugหากคุณใช้ backtranslationaug, contextualwordembsaug, contextualwordembsforsentenceaug และ abstsummaug ติดตั้งการพึ่งพาต่อไปนี้เช่นกัน
pip install torch > =1.6.0 transformers > =4.11.3 sentencepieceหากคุณใช้ lambadaaug การติดตั้งการอ้างอิงต่อไปนี้เช่นกัน
pip install simpletransformers > =0.61.10หากคุณใช้ Antonymaug, Synonymaug ติดตั้งการพึ่งพาต่อไปนี้เช่นกัน
pip install nltk > =3.4.5หากคุณใช้ Wordembsaug (Word2vec, Glove หรือ Fasttext) การดาวน์โหลดรุ่นที่ผ่านการฝึกอบรมมาก่อนและติดตั้งการพึ่งพาต่อไปนี้
from nlpaug.util.file.download import DownloadUtil
DownloadUtil.download_word2vec(dest_dir= ' . ' ) # Download word2vec model
DownloadUtil.download_glove(model_name= ' glove.6B ' , dest_dir= ' . ' ) # Download GloVe model
DownloadUtil.download_fasttext(model_name= ' wiki-news-300d-1M ' , dest_dir= ' . ' ) # Download fasttext model
pip install gensim > =4.1.2หากคุณใช้ Synonymaug (PPDB) ให้ดาวน์โหลดไฟล์จาก URI ต่อไปนี้ คุณอาจไม่สามารถเรียกใช้ Augmenter ได้หากคุณได้รับไฟล์ PPDB จากเว็บไซต์อื่น ๆ
http://paraphrase.org/ # /downloadหากคุณใช้ pitchaug, speedaug และ vtlpaug ติดตั้งการอ้างอิงต่อไปนี้เช่นกัน
pip install librosa > =0.9.1 matplotlibดู Changelog สำหรับรายละเอียดเพิ่มเติม
ไลบรารีนี้ใช้ข้อมูล (เช่นการจับจากอินเทอร์เน็ต) การวิจัย (เช่นแนวคิดการเพิ่มความคิด) โมเดล (เช่นการใช้แบบจำลองที่ผ่านการฝึกอบรมมาแล้ว) ดูแหล่งข้อมูลสำหรับรายละเอียดเพิ่มเติม
@misc{ma2019nlpaug,
title={NLP Augmentation},
author={Edward Ma},
howpublished={https://github.com/makcedward/nlpaug},
year={2019}
}แพ็คเกจนี้อ้างถึงโดยหนังสือหลายเล่มเวิร์กช็อปและงานวิจัยเชิงวิชาการ (70+) นี่คือตัวอย่างบางส่วนและคุณสามารถเยี่ยมชมที่นี่เพื่อรับรายการทั้งหมด
Sakares Saengkaew | Binoy Dalal | Emrecan çelik |