ดาวน์โหลด ELCo - ดาวน์โหลดซอร์สโค้ด ELCo

ELCo

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

ชุดข้อมูล ELCO

repo นี้ให้ชุดข้อมูลและการใช้งานอย่างเป็นทางการสำหรับกระดาษของเรา @ lrec-coling 2024
สำเนาเอกสารท้องถิ่นของเรา: https://yisong.me/publications/[email protected]
สำเนาท้องถิ่นของสไลด์ของเรา: https://yisong.me/publications/[email protected]

ไฟล์ ELCO.CSV ครอบคลุมชุดข้อมูล ELCO ที่สมบูรณ์ซึ่งแบ่งออกเป็นห้าคอลัมน์ที่โดดเด่น:

en: วลีภาษาอังกฤษ;
EM: ลำดับอิโมจิที่สอดคล้องกับวลีภาษาอังกฤษ;
คำอธิบาย: คำอธิบายสำหรับอิโมจิ;
กลยุทธ์การประพันธ์: กลยุทธ์ที่ใช้ในการเขียนอีโมจิตามที่ระบุไว้ในการศึกษาคลังข้อมูลของเรา มันรวมถึงการเป็นตัวแทนโดยตรง, การเป็นตัวแทนเชิงเปรียบเทียบ, รายการความหมาย, การซ้ำซ้อนและอิโมจิเดี่ยว
แอตทริบิวต์: คุณลักษณะของวลีภาษาอังกฤษ

ดูตัวอย่างของ 5 แถวแรกใน ELCO.CSV ที่สมบูรณ์:

en	em	คำอธิบาย	กลยุทธ์การแต่งเพลง	คุณลักษณะ
ธุรกิจใหญ่	-	[': Necktie:', ': chart_increing:']	เชิงอุปมาอุปไมย	ขนาด
ธุรกิจใหญ่	-	[': Office_Building:', ': MONEY-MOUTH_FACE:', ': MONEY-MOUTH_FACE:']	เชิงอุปมาอุปไมย	ขนาด
ธุรกิจใหญ่	??	[': Man_Technologist:', ': Handshake:']	เชิงอุปมาอุปไมย	ขนาด
ธุรกิจใหญ่	???	[': Office_building:', ': people_holding_hands:', ': people_holding_hands:', ': people_holding_hands:']	เชิงอุปมาอุปไมย	ขนาด
ธุรกิจใหญ่	??	[': Woman_Technologist:', ': MONEY-MOUTH_FACE:']	เชิงอุปมาอุปไมย	ขนาด

การดำเนินการอย่างเป็นทางการสำหรับการเปรียบเทียบ

การติดตั้ง?

 git clone [email protected]:WING-NUS/ELCo.git
conda activate
cd ELCo
cd scripts
pip install -r requirements.txt

codebase ของเราไม่จำเป็นต้องใช้แพ็คเกจรุ่นเฉพาะใน requirements.txt . txt
สำหรับ NLPers ส่วนใหญ่คุณอาจจะสามารถเรียกใช้รหัสของเราด้วยสภาพแวดล้อมเสมือนจริง (conda) ที่มีอยู่ของคุณ

การทดลองใช้?

ระบุเส้นทางของคุณ? ️? ️

ก่อนที่จะเรียกใช้ไฟล์ bash โปรดแก้ไขไฟล์ bash เพื่อระบุเส้นทางของคุณไปยังแคช HuggingFace ในเครื่องของคุณ
ตัวอย่างเช่นในสคริปต์/unsupervised.sh:

 #!/bin/bash

# Please define your own path here
huggingface_path=YOUR_PATH

คุณสามารถเปลี่ยน YOUR_PATH เป็นตำแหน่งไดเรกทอรีที่แน่นอนของแคช HuggingFace ของคุณ (เช่น /disk1/yisong/hf-cache )

การประเมินผลที่ไม่ได้รับการดูแลในงาน EMOTE:

 conda activate
cd ELCo
bash scripts/unsupervised.sh

ปรับแต่งอย่างละเอียดเกี่ยวกับงาน Emote:

 conda activate
cd ELCo
bash scripts/fine-tune.sh

การทดลองปรับขนาด:?

 conda activate
cd ELCo
bash scripts/scaling.sh

แผนที่ codebase?

รหัสทั้งหมดจะถูกเก็บไว้ในไดเรกทอรี scripts ข้อมูลอยู่ใน Benchmark_data
ไฟล์ bash ของเราดำเนินการกำหนดค่าต่างๆของ emote.py :

emote.py : คอนโทรลเลอร์สำหรับชุดการทดลองทั้งหมด ข้อมูลโหลดและตัวเข้ารหัสจะถูกนำไปใช้ที่นี่เช่นกัน
emote_config.py : ไฟล์กำหนดค่านี้ใช้พารามิเตอร์จาก ArgParse เป็นอินพุตและส่งคืนคลาสการกำหนดค่าซึ่งสะดวกสำหรับฟังก์ชั่นที่ตามมาในการโทร;
unsupervised.py : เรียกโดย emote.py มันทำการประเมินที่ไม่ได้รับการดูแลโดยใช้โมเดลแช่แข็งที่เตรียมไว้ในชุดข้อมูล MNLI ในการดำเนินการครั้งแรกรูปแบบที่ผ่านการฝึกอบรมจะถูกดาวน์โหลดจาก HuggingFace ไปยัง huggingface_path ที่คุณระบุ ตรวจสอบให้แน่ใจว่ามีพื้นที่เพียงพอ (เราแนะนำอย่างน้อย 20GB) ผลลัพธ์จะถูกบันทึกไว้ที่ benchmark_data/results/TE-unsup/ directory ไดเรกทอรีนี้จะถูกสร้างขึ้นโดยอัตโนมัติเมื่อทำการทดลอง
finetune.py : เรียกโดย emote.py มันปรับแต่งโมเดลที่ได้รับการฝึกฝน สคริปต์นี้บันทึก classification_report สำหรับแต่ละช่วงการปรับแต่งและบันทึกความแม่นยำในการทดสอบที่ดีที่สุด (เมื่อความแม่นยำในการตรวจสอบได้รับการปรับให้เหมาะสม) ในไฟล์ _best.csv ที่ benchmark_data/results/TE-finetune/ ไดเรกทอรี ไดเรกทอรีนี้จะถูกสร้างขึ้นโดยอัตโนมัติเมื่อทำการทดลอง

การอ้างอิง

หากคุณพบว่างานของเราน่าสนใจคุณสามารถลองใช้ชุดข้อมูล/codebase ของเราได้มากที่สุด
โปรดกรุณาอ้างอิงการวิจัยของเราหากคุณใช้ชุดข้อมูล/codebase ของเรา:

 @inproceedings{ELCoDataset2024,
    title = "The ELCo Dataset: Bridging Emoji and Lexical Composition",
    author = {Yang, Zi Yun  and
    	Zhang, Ziqing and
      Miao, Yisong},
    booktitle = "Proceedings of The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation",
    month = May,
    year = "2024",
    address = "Turino, Italy",
}