repo นี้ให้ชุดข้อมูลและการใช้งานอย่างเป็นทางการสำหรับกระดาษของเรา @ lrec-coling 2024
สำเนาเอกสารท้องถิ่นของเรา: https://yisong.me/publications/[email protected]
สำเนาท้องถิ่นของสไลด์ของเรา: https://yisong.me/publications/[email protected]
ไฟล์ ELCO.CSV ครอบคลุมชุดข้อมูล ELCO ที่สมบูรณ์ซึ่งแบ่งออกเป็นห้าคอลัมน์ที่โดดเด่น:
ดูตัวอย่างของ 5 แถวแรกใน ELCO.CSV ที่สมบูรณ์:
| en | em | คำอธิบาย | กลยุทธ์การแต่งเพลง | คุณลักษณะ |
|---|---|---|---|---|
| ธุรกิจใหญ่ | - | [': Necktie:', ': chart_increing:'] | เชิงอุปมาอุปไมย | ขนาด |
| ธุรกิจใหญ่ | - | [': Office_Building:', ': MONEY-MOUTH_FACE:', ': MONEY-MOUTH_FACE:'] | เชิงอุปมาอุปไมย | ขนาด |
| ธุรกิจใหญ่ | ?? | [': Man_Technologist:', ': Handshake:'] | เชิงอุปมาอุปไมย | ขนาด |
| ธุรกิจใหญ่ | ??? | [': Office_building:', ': people_holding_hands:', ': people_holding_hands:', ': people_holding_hands:'] | เชิงอุปมาอุปไมย | ขนาด |
| ธุรกิจใหญ่ | ?? | [': Woman_Technologist:', ': MONEY-MOUTH_FACE:'] | เชิงอุปมาอุปไมย | ขนาด |
git clone [email protected]:WING-NUS/ELCo.git
conda activate
cd ELCo
cd scripts
pip install -r requirements.txt
codebase ของเราไม่จำเป็นต้องใช้แพ็คเกจรุ่นเฉพาะใน requirements.txt . txt
สำหรับ NLPers ส่วนใหญ่คุณอาจจะสามารถเรียกใช้รหัสของเราด้วยสภาพแวดล้อมเสมือนจริง (conda) ที่มีอยู่ของคุณ
ก่อนที่จะเรียกใช้ไฟล์ bash โปรดแก้ไขไฟล์ bash เพื่อระบุเส้นทางของคุณไปยังแคช HuggingFace ในเครื่องของคุณ
ตัวอย่างเช่นในสคริปต์/unsupervised.sh:
#!/bin/bash
# Please define your own path here
huggingface_path=YOUR_PATH
คุณสามารถเปลี่ยน YOUR_PATH เป็นตำแหน่งไดเรกทอรีที่แน่นอนของแคช HuggingFace ของคุณ (เช่น /disk1/yisong/hf-cache )
conda activate
cd ELCo
bash scripts/unsupervised.sh
conda activate
cd ELCo
bash scripts/fine-tune.sh
conda activate
cd ELCo
bash scripts/scaling.sh
รหัสทั้งหมดจะถูกเก็บไว้ในไดเรกทอรี scripts ข้อมูลอยู่ใน Benchmark_data
ไฟล์ bash ของเราดำเนินการกำหนดค่าต่างๆของ emote.py :
emote.py : คอนโทรลเลอร์สำหรับชุดการทดลองทั้งหมด ข้อมูลโหลดและตัวเข้ารหัสจะถูกนำไปใช้ที่นี่เช่นกันemote_config.py : ไฟล์กำหนดค่านี้ใช้พารามิเตอร์จาก ArgParse เป็นอินพุตและส่งคืนคลาสการกำหนดค่าซึ่งสะดวกสำหรับฟังก์ชั่นที่ตามมาในการโทร;unsupervised.py : เรียกโดย emote.py มันทำการประเมินที่ไม่ได้รับการดูแลโดยใช้โมเดลแช่แข็งที่เตรียมไว้ในชุดข้อมูล MNLI ในการดำเนินการครั้งแรกรูปแบบที่ผ่านการฝึกอบรมจะถูกดาวน์โหลดจาก HuggingFace ไปยัง huggingface_path ที่คุณระบุ ตรวจสอบให้แน่ใจว่ามีพื้นที่เพียงพอ (เราแนะนำอย่างน้อย 20GB) ผลลัพธ์จะถูกบันทึกไว้ที่ benchmark_data/results/TE-unsup/ directory ไดเรกทอรีนี้จะถูกสร้างขึ้นโดยอัตโนมัติเมื่อทำการทดลองfinetune.py : เรียกโดย emote.py มันปรับแต่งโมเดลที่ได้รับการฝึกฝน สคริปต์นี้บันทึก classification_report สำหรับแต่ละช่วงการปรับแต่งและบันทึกความแม่นยำในการทดสอบที่ดีที่สุด (เมื่อความแม่นยำในการตรวจสอบได้รับการปรับให้เหมาะสม) ในไฟล์ _best.csv ที่ benchmark_data/results/TE-finetune/ ไดเรกทอรี ไดเรกทอรีนี้จะถูกสร้างขึ้นโดยอัตโนมัติเมื่อทำการทดลอง หากคุณพบว่างานของเราน่าสนใจคุณสามารถลองใช้ชุดข้อมูล/codebase ของเราได้มากที่สุด
โปรดกรุณาอ้างอิงการวิจัยของเราหากคุณใช้ชุดข้อมูล/codebase ของเรา:
@inproceedings{ELCoDataset2024,
title = "The ELCo Dataset: Bridging Emoji and Lexical Composition",
author = {Yang, Zi Yun and
Zhang, Ziqing and
Miao, Yisong},
booktitle = "Proceedings of The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation",
month = May,
year = "2024",
address = "Turino, Italy",
}
หากคุณมีคำถามหรือรายงานข้อผิดพลาดโปรดเพิ่มปัญหาหรือติดต่อเราโดยตรงผ่านทางอีเมล:
ที่อยู่อีเมล:@?
ที่ไหน️ = yisong ,? = comp.nus.edu.sg
CC โดย 4.0