uda Download - uda Source Source Download

uda

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

การเพิ่มข้อมูลที่ไม่ได้รับการดูแล

ภาพรวม

การเพิ่มข้อมูลที่ไม่ได้รับการดูแลหรือ UDA เป็นวิธีการเรียนรู้แบบกึ่งผู้ดูแลซึ่งได้รับผลลัพธ์ที่ทันสมัยในงานภาษาและการมองเห็นที่หลากหลาย

ด้วยตัวอย่างที่มีป้ายกำกับเพียง 20 ตัวอย่าง UDA มีประสิทธิภาพสูงกว่าสถานะก่อนหน้านี้ใน IMDB ที่ผ่านการฝึกอบรมจากตัวอย่างที่มีป้ายกำกับ 25,000 ตัวอย่าง

แบบอย่าง	จำนวนตัวอย่างที่มีป้ายกำกับ	อัตราความผิดพลาด
VAT ผสม (ก่อนหน้า SOTA)	25,000	4.32
เบิร์ต	25,000	4.51
UDA	20	4.20

มันลดลงมากกว่า 30% ของอัตราความผิดพลาดของวิธีการที่ทันสมัยใน CIFAR-10 ด้วยตัวอย่างที่มีป้ายกำกับ 4,000 ตัวอย่างและ SVHN พร้อมตัวอย่าง 1,000 ตัวอย่าง:

แบบอย่าง	CIFAR-10	svhn
ICT (Prev. Sota)	7.66 ± .17	3.53 ± .07
UDA	4.31 ± .08	2.28 ± .10

มันนำไปสู่การปรับปรุงที่สำคัญเกี่ยวกับ ImageNet ด้วยข้อมูลที่มีป้ายกำกับ 10%

แบบอย่าง	ความแม่นยำสูงสุด -1	ความแม่นยำสูงสุด 5 อันดับ
resnet-50	55.09	77.26
UDA	68.78	88.80

มันทำงานอย่างไร

UDA เป็นวิธี การเรียนรู้แบบกึ่งผู้ดูแล ซึ่งช่วยลดความจำเป็นในการใช้ตัวอย่างที่มีป้ายกำกับและใช้ประโยชน์จากสิ่งที่ไม่มีป้ายกำกับได้ดีขึ้น

สิ่งที่เรากำลังปล่อย

เรากำลังปล่อยสิ่งต่อไปนี้:

รหัสสำหรับการจำแนกประเภทข้อความตามเบิร์ต
รหัสสำหรับการจำแนกรูปภาพบน CIFAR-10 และ SVHN
รหัสและจุดตรวจสำหรับระบบเสริมการแปลด้านหลังของเรา

รหัสทั้งหมดในที่เก็บนี้ทำงานนอกกรอบกับ GPU และ Google Cloud TPU

ความต้องการ

รหัสถูกทดสอบบน Python 2.7 และ TensorFlow 1.13 หลังจากติดตั้ง TensorFlow ให้เรียกใช้คำสั่งต่อไปนี้เพื่อติดตั้งการพึ่งพา:

pip install --user absl-py

การจำแนกรูปภาพ

การประมวลผลล่วงหน้า

เราสร้างตัวอย่างเพิ่มเติม 100 ตัวอย่างสำหรับทุกตัวอย่างดั้งเดิม หากต้องการดาวน์โหลดข้อมูลเพิ่มเติมทั้งหมดให้ไปที่ไดเรกทอรี รูปภาพ และเรียกใช้

AUG_COPY=100
bash scripts/download_cifar10.sh ${AUG_COPY}

โปรดทราบว่าคุณต้องการพื้นที่ดิสก์ 120 กรัมสำหรับข้อมูลที่เพิ่มขึ้นทั้งหมด ในการประหยัดพื้นที่คุณสามารถตั้งค่า aug_copy เป็นจำนวนน้อยกว่าเช่น 30

หรือคุณสามารถสร้างตัวอย่างที่เพิ่มขึ้นด้วยตัวเองด้วยการวิ่ง

AUG_COPY=100
bash scripts/preprocess.sh --aug_copy= ${AUG_COPY}

CIFAR-10 พร้อม 250, 500, 1,000, 2000, 4000 ตัวอย่างเกี่ยวกับ GPUS

คำสั่ง GPU:

 # UDA accuracy: 
# 4000: 95.68 +- 0.08
# 2000: 95.27 +- 0.14
# 1000: 95.25 +- 0.10
# 500: 95.20 +- 0.09
# 250: 94.57 +- 0.96
bash scripts/run_cifar10_gpu.sh --aug_copy= ${AUG_COPY}

SVHN กับ 250, 500, 1,000, 2000, 4000 ตัวอย่างเกี่ยวกับ GPUS

 # UDA accuracy:
# 4000: 97.72 +- 0.10
# 2000: 97.80 +- 0.06
# 1000: 97.77 +- 0.07
# 500: 97.73 +- 0.09
# 250: 97.28 +- 0.40

bash scripts/run_svhn_gpu.sh --aug_copy= ${AUG_COPY}

การจำแนกประเภทข้อความ

วิ่งบน GPU

ปัญหาหน่วยความจำ

ข้อความรีวิวภาพยนตร์ใน IMDB นั้นยาวกว่างานการจำแนกประเภทจำนวนมากดังนั้นการใช้ความยาวลำดับที่ยาวขึ้นนำไปสู่การแสดงที่ดีขึ้น ความยาวลำดับถูก จำกัด โดยหน่วยความจำ TPU/GPU เมื่อใช้ BERT (ดูปัญหานอกหน่วยความจำของ BERT) ดังนั้นเราจึงให้สคริปต์เพื่อทำงานด้วยความยาวลำดับที่สั้นกว่าและขนาดแบทช์ที่เล็กกว่า

คำแนะนำ

หากคุณต้องการเรียกใช้ UDA ด้วยฐาน Bert บน GPU ที่มีหน่วยความจำ 11 GB ให้ไปที่ไดเรกทอรี ข้อความ และเรียกใช้คำสั่งต่อไปนี้:

 # Set a larger max_seq_length if your GPU has a memory larger than 11GB
MAX_SEQ_LENGTH=128

# Download data and pretrained BERT checkpoints
bash scripts/download.sh

# Preprocessing
bash scripts/prepro.sh --max_seq_length= ${MAX_SEQ_LENGTH}

# Baseline accuracy: around 68%
bash scripts/run_base.sh --max_seq_length= ${MAX_SEQ_LENGTH}

# UDA accuracy: around 90%
# Set a larger train_batch_size to achieve better performance if your GPU has a larger memory.
bash scripts/run_base_uda.sh --train_batch_size=8 --max_seq_length= ${MAX_SEQ_LENGTH}

เรียกใช้บนพ็อด Cloud TPU V3-32 เพื่อให้ได้ประสิทธิภาพ SOTA

ประสิทธิภาพที่ดีที่สุดในกระดาษทำได้โดยใช้ MAX_SEQ_LENGTH ของ 512 และเริ่มต้นด้วย BERT ขนาดใหญ่ finetuned บนข้อมูลที่ไม่ได้รับการดูแลในโดเมน หากคุณสามารถเข้าถึง Google Cloud TPU V3-32 POD ให้ลอง:

MAX_SEQ_LENGTH=512

# Download data and pretrained BERT checkpoints
bash scripts/download.sh

# Preprocessing
bash scripts/prepro.sh --max_seq_length= ${MAX_SEQ_LENGTH}

# UDA accuracy: 95.3% - 95.9%
bash train_large_ft_uda_tpu.sh

เรียกใช้การเพิ่มการแปลข้อมูลการแปลสำหรับชุดข้อมูลของคุณ

ก่อนอื่นให้ติดตั้งการพึ่งพาต่อไปนี้:

pip install --user nltk
python -c " import nltk; nltk.download('punkt') "
pip install --user tensor2tensor==1.13.4

คำสั่งต่อไปนี้แปลไฟล์ตัวอย่างที่ให้ไว้ มันแยกย่อหน้าออกเป็นประโยคโดยอัตโนมัติแปลประโยคภาษาอังกฤษเป็นภาษาฝรั่งเศสแล้วแปลกลับเป็นภาษาอังกฤษ ในที่สุดมันก็ประกอบด้วยประโยคถอดความเป็นวรรค ไปที่ไดเรกทอรี back_translate แล้วเรียกใช้:

bash download.sh
bash run.sh

แนวทางสำหรับพารามิเตอร์ hyperparameters:

มีตัวแปร Sampling_TEMP ในไฟล์ bash มันถูกใช้เพื่อควบคุมความหลากหลายและคุณภาพของการถอดความ การเพิ่ม Sampling_TEMP จะนำไปสู่ความหลากหลายที่เพิ่มขึ้น แต่คุณภาพที่แย่ลง น่าแปลกที่ความหลากหลายมีความสำคัญมากกว่าคุณภาพสำหรับงานหลายอย่างที่เราลอง

เราขอแนะนำให้พยายามตั้งค่า sampling_temp เป็น 0.7, 0.8 และ 0.9 หากงานของคุณแข็งแกร่งมากต่อเสียงรบกวน Sampling_TEMP = 0.9 หรือ 0.8 ควรนำไปสู่ประสิทธิภาพที่ดีขึ้น หากงานของคุณไม่แข็งแกร่งต่อเสียงรบกวนการตั้งค่าการสุ่มตัวอย่างอุณหภูมิเป็น 0.7 หรือ 0.6 น่าจะดีกว่า

หากคุณต้องการทำการแปลกลับไปยังไฟล์ขนาดใหญ่คุณสามารถเปลี่ยนอาร์กิวเมนต์แบบจำลองและ Worker_id ใน Run.sh ตัวอย่างเช่นเมื่อแบบจำลอง = 3 เราแบ่งข้อมูลออกเป็นสามส่วนและแต่ละ run.sh จะดำเนินการเพียงส่วนเดียวตาม worker_id

แนวทางทั่วไปสำหรับการตั้งค่า hyperparameters:

UDA ทำงานนอกกรอบและไม่จำเป็นต้องมีการปรับแต่งพารามิเตอร์ไฮเปอร์พารามิเตอร์อย่างกว้างขวาง แต่เพื่อผลักดันประสิทธิภาพจริง ๆ นี่คือคำแนะนำเกี่ยวกับพารามิเตอร์ hyperparamters:

มันทำงานได้ดีในการตั้งค่าน้ำหนักตามวัตถุประสงค์ที่ไม่ได้รับการดูแล 'Unsup_coeff' เป็น 1
ใช้อัตราการเรียนรู้ที่ต่ำกว่าการเรียนรู้ที่มีการดูแลอย่างบริสุทธิ์เนื่องจากมีสองข้อกำหนดการสูญเสียที่คำนวณได้จากข้อมูลที่ติดฉลากและข้อมูลที่ไม่มีป้ายกำกับอย่างไม่หยุดยั้ง
หากคุณมีข้อมูลจำนวนน้อยมากลองปรับแต่ง 'UDA_SOFTMAX_TEMP' และ 'UDA_CONFIDENT_THRESH' เล็กน้อย สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับพารามิเตอร์สองพารามิเตอร์เหล่านี้ค้นหา "การปิดบังด้วยความมั่นใจ" และ "การควบคุมอุณหภูมิ Softmax" ในกระดาษ
การเสริมที่มีประสิทธิภาพสำหรับการเรียนรู้ภายใต้การดูแลมักจะทำงานได้ดีสำหรับ UDA
สำหรับงานบางอย่างเราสังเกตว่าการเพิ่มขนาดแบทช์สำหรับวัตถุประสงค์ที่ไม่ได้รับการดูแลนำไปสู่ประสิทธิภาพที่ดีขึ้น สำหรับงานอื่น ๆ ขนาดชุดขนาดเล็กก็ใช้ได้ดีเช่นกัน ตัวอย่างเช่นเมื่อเราเรียกใช้ UDA ด้วย GPU บน CIFAR-10 ขนาดชุดที่ดีที่สุดสำหรับวัตถุประสงค์ที่ไม่ได้รับการดูแลคือ 160

การรับทราบ

ส่วนใหญ่ของรหัสถูกนำมาจาก Bert และ Randaugment ขอบคุณ!

การอ้างอิง

โปรดอ้างอิงบทความนี้หากคุณใช้ UDA

 @article{xie2019unsupervised,
  title={Unsupervised Data Augmentation for Consistency Training},
  author={Xie, Qizhe and Dai, Zihang and Hovy, Eduard and Luong, Minh-Thang and Le, Quoc V},
  journal={arXiv preprint arXiv:1904.12848},
  year={2019}
}

โปรดอ้างถึงบทความนี้หากคุณใช้ UDA สำหรับรูปภาพ

 @article{cubuk2019randaugment,
  title={RandAugment: Practical data augmentation with no separate search},
  author={Cubuk, Ekin D and Zoph, Barret and Shlens, Jonathon and Le, Quoc V},
  journal={arXiv preprint arXiv:1909.13719},
  year={2019}
}

คำเตือน

นี่ไม่ใช่ผลิตภัณฑ์ Google ที่ได้รับการสนับสนุนอย่างเป็นทางการ

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-04-18
ขนาด 322.97KB
มาจาก Github

แอปที่เกี่ยวข้อง

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด