naacl_transfer_learning_tutorial ดาวน์โหลด - naacl_transfer_learning

naacl_transfer_learning_tutorial

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

รหัสที่เก็บรหัสพร้อมบทช่วยสอน NAACL 2019 เรื่อง "การถ่ายโอนการเรียนรู้ในการประมวลผลภาษาธรรมชาติ"

บทช่วยสอนได้รับเมื่อวันที่ 2 มิถุนายนที่ NAACL 2019 ใน Minneapolis, MN, USA โดย Sebastian Ruder, Matthew Peters, Swabha Swayamdipta และ Thomas Wolf

นี่คือหน้าเว็บของบทช่วยสอน NAACL สำหรับข้อมูลเพิ่มเติม

สไลด์สำหรับการสอนสามารถดูได้ที่นี่: https://tinyurl.com/naacltransfer

สมุดบันทึก Google Colab พร้อมรหัสทั้งหมดสำหรับการสอนสามารถดูได้ที่นี่: https://tinyurl.com/naacltransfercolab

ที่เก็บปัจจุบันสามารถเข้าถึงได้ด้วย URL สั้น ๆ ต่อไปนี้: https://tinyurl.com/naacltransfercode

เชิงนามธรรม

กระบวนทัศน์การเรียนรู้ของเครื่องจักรแบบคลาสสิกภายใต้การเรียนรู้การแยกแบบจำลองการทำนายเดียวสำหรับงานโดยใช้ชุดข้อมูลเดียว วิธีการนี้ต้องใช้ตัวอย่างการฝึกอบรมจำนวนมากและทำงานได้ดีที่สุดสำหรับงานที่กำหนดและแคบ การถ่ายโอนการเรียนรู้หมายถึงชุดของวิธีการที่ขยายวิธีการนี้โดยใช้ประโยชน์จากข้อมูลจากโดเมนหรืองานเพิ่มเติมเพื่อฝึกอบรมแบบจำลองที่มีคุณสมบัติการวางนัยทั่วไปที่ดีขึ้น

ในช่วงสองปีที่ผ่านมาสาขาการประมวลผลภาษาธรรมชาติ (NLP) ได้เห็นการเกิดขึ้นของวิธีการเรียนรู้การถ่ายโอนและสถาปัตยกรรมหลายอย่างซึ่งดีขึ้นอย่างมีนัยสำคัญเมื่ออยู่ในงานที่ทันสมัยในงาน NLP ที่หลากหลาย

การปรับปรุงเหล่านี้พร้อมกับความพร้อมใช้งานที่กว้างและความสะดวกในการรวมวิธีการเหล่านี้เป็นสิ่งชวนให้นึกถึงปัจจัยที่นำไปสู่ความสำเร็จของการฝังคำที่ผ่านการฝึกฝนและจินตนาการในการมองเห็นคอมพิวเตอร์และระบุว่าวิธีการเหล่านี้น่าจะกลายเป็นเครื่องมือทั่วไปในภูมิทัศน์ NLP และทิศทางการวิจัยที่สำคัญ

เราจะนำเสนอภาพรวมของวิธีการเรียนรู้การถ่ายโอนที่ทันสมัยใน NLP วิธีการที่ได้รับการฝึกอบรมล่วงหน้าข้อมูลที่พวกเขาเรียนรู้การจับภาพและตรวจสอบตัวอย่างและกรณีศึกษาเกี่ยวกับวิธีการที่โมเดลเหล่านี้สามารถรวมและปรับตัวในงาน NLP ดาวน์สตรีมได้อย่างไร

ภาพรวม

codebase นี้พยายามที่จะนำเสนอในวิธีที่ง่ายที่สุดและกะทัดรัดที่สุดของเทคนิคการเรียนรู้การถ่ายโอนที่สำคัญบางอย่างซึ่งเกิดขึ้นในช่วงหลายปีที่ผ่านมา รหัสในที่เก็บนี้ไม่ได้พยายามที่จะเป็นล้ำสมัย อย่างไรก็ตามมีความพยายามในการบรรลุประสิทธิภาพที่สมเหตุสมผลและมีการปรับเปลี่ยนบางอย่างเพื่อแข่งขันกับสถานะปัจจุบันของศิลปะ

มีความพยายามพิเศษ

ตรวจสอบให้แน่ใจว่าสามารถใช้รหัสปัจจุบันได้อย่างง่ายดายที่สุดโดยเฉพาะอย่างยิ่งโดยการโฮสต์แบบจำลองและชุดข้อมูล
รักษา codebase ปัจจุบันให้มีขนาดกะทัดรัดและมีอยู่ในตัวเองมากที่สุดเพื่อให้ง่ายต่อการจัดการและเข้าใจ

ปัจจุบัน codebase ประกอบด้วย:

pretraining_model.py : โมเดลหม้อแปลงที่มีสถาปัตยกรรมเหมือน GPT-2 เป็นแบบจำลองเบื้องต้น
pretraining_train.py : สคริปต์ pretraining เพื่อฝึกอบรมโมเดลนี้โดยมีวัตถุประสงค์การสร้างแบบจำลองภาษาในการเลือกชุดข้อมูลขนาดใหญ่ (Wikitext-103, SimpleBooks-92) โดยใช้การฝึกอบรมแบบกระจายหากมี;
finetuning_model.py : สถาปัตยกรรมหลายอย่างที่ใช้โมเดลหม้อแปลงสำหรับการปรับแต่ง (มีหัวการจำแนกด้านบนพร้อมอะแดปเตอร์);
finetuning_train.py : สคริปต์การปรับแต่งเพื่อปรับแต่งสถาปัตยกรรมเหล่านี้ในงานการจำแนกประเภท (IMDB)

การติดตั้ง

ในการใช้ codebase นี้เพียงโคลนที่เก็บ GitHub และติดตั้งข้อกำหนดเช่นนี้:

git clone https://github.com/huggingface/naacl_transfer_learning_tutorial
cd naacl_transfer_learning_tutorial
pip install -r requirements.txt

การฝึกอบรมล่วงหน้า

ในการฝึกอบรมหม้อแปลงล่วงหน้าให้เรียกใช้สคริปต์ pretraining_train.py เช่นนี้:

python ./pretraining_train.py

หรือใช้การฝึกอบรมแบบกระจายเช่นนี้ (สำหรับเซิร์ฟเวอร์ 8 GPU):

python -m torch.distributed.launch --nproc_per_node 8 ./pretraining_train.py

สคริปต์การฝึกอบรมล่วงหน้าจะ:

ดาวน์โหลด wikitext-103 สำหรับการฝึกอบรมล่วงหน้า (ค่าเริ่มต้น)
ยกตัวอย่างโมเดลหม้อแปลงพารามิเตอร์ขนาด 50 ม. และฝึกอบรมสำหรับ 50 ยุค
บันทึกประสบการณ์ใน Tensorboard และในโฟลเดอร์ภายใต้ ./runs ,
บันทึกจุดตรวจในโฟลเดอร์บันทึก

การเตรียมการตรวจสอบความน่าสะพรึงกลัวของ ~ 29 ใน Wikitext-103 จะใช้เวลาประมาณ 15 ชั่วโมงใน 8 V100 GPU (สามารถหยุดได้ก่อนหน้านี้) หากคุณมีความสนใจใน SOTA มีเหตุผลบางประการที่ทำให้การตรวจสอบความน่าสะพรึงกลัวนั้นสูงกว่า Transformer-XL ที่เทียบเท่าเล็กน้อย (ประมาณ 24) เหตุผลหลักคือการใช้คำศัพท์แบบเปิด (คำย่อยสำหรับ Bert Tokenizer) แทนคำศัพท์ปิด (ดูโพสต์บล็อกนี้โดย Sebastian Mielke สำหรับคำอธิบายบางอย่าง)

มีตัวเลือกการฝึกอบรมล่วงหน้าที่หลากหลายคุณสามารถแสดงรายการได้ด้วย:

python ./pretraining_train.py --help

การปรับแต่ง

ในการปรับแต่งหม้อแปลงที่ผ่านการฝึกอบรมล่วงหน้าให้เรียกใช้สคริปต์ finetuning_train.py เช่นนี้:

python ./finetuning_train.py --model_checkpoint PATH-TO-YOUR-PRETRAINED-MODEL-FOLDER

PATH-TO-YOUR-PRETRAINED-MODEL-FOLDER สามารถเป็นเช่น ./runs/May17_17-47-12_my_big_server may17_17-47-12_my_big_server

หรือใช้การฝึกอบรมแบบกระจายเช่นนี้ (สำหรับเซิร์ฟเวอร์ 8 GPU):

python -m torch.distributed.launch --nproc_per_node 8 ./finetuning_train.py  --model_checkpoint PATH-TO-YOUR-PRETRAINED-MODEL-FOLDER

มีตัวเลือกการปรับแต่งที่หลากหลายคุณสามารถแสดงรายการได้ด้วย:

python ./finetuning_train.py --help

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-04-17
ขนาด 17.02KB
มาจาก Github

แอปที่เกี่ยวข้อง

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
เครื่องมือวิเคราะห์ข้อมูล Lihua เวอร์ชันฟรี 3.0_search_navigation_collection_public comment_ranking_api

2022-06-28

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด