يوفر هذا الريبو مجموعة البيانات والتطبيقات الرسمية لورقة @ lrec-coling 2024.
نسخة محلية من ورقتنا: https://yisong.me/publications/[email protected]
نسخة محلية من شرائحنا: https://yisong.me/publications/elco@lrec- coling24-oral.pdf
يشمل ملف ELCO.CSV مجموعة بيانات ELCO الكاملة ، والتي يتم تقسيمها إلى خمسة أعمدة مميزة:
معاينة أول 5 صفوف في elco.csv الكاملة:
| en | م | وصف | استراتيجية التكوين | يصف |
|---|---|---|---|---|
| الأعمال التجارية الكبيرة | ؟ | [': necktie:' ، ': chart_incring:'] | مجازي | مقاس |
| الأعمال التجارية الكبيرة | ؟؟؟ | [': Office_Building:' ، ': Money-mouth_face:' ، ': money-mouth_face:'] | مجازي | مقاس |
| الأعمال التجارية الكبيرة | ؟ ؟ | [': man_technologist:' ، ': المصافحة:'] | مجازي | مقاس |
| الأعمال التجارية الكبيرة | ؟؟ ؟ ؟؟ ؟ ؟؟ ؟ ؟ | [': Office_Building:' ، ': people_holding_hands:' ، ': people_holding_hands:' ، ': people_holding_hands:'] | مجازي | مقاس |
| الأعمال التجارية الكبيرة | ؟ ؟ | [': woman_technologist:' ، ': money-mouth_face:'] | مجازي | مقاس |
git clone [email protected]:WING-NUS/ELCo.git
conda activate
cd ELCo
cd scripts
pip install -r requirements.txt
لا تتطلب قاعدة كودنا إصدارات محددة من الحزم في requirements.txt . txt.
بالنسبة لمعظم NLPERS ، ربما ستتمكن من تشغيل الكود الخاص بنا مع بيئاتك الافتراضية (Conda) الحالية.
قبل تشغيل ملفات Bash ، يرجى تحرير ملف Bash لتحديد مسارك إلى ذاكرة التخزين المؤقت Local Luggingface الخاصة بك.
على سبيل المثال ، في البرامج النصية/undervised.sh:
#!/bin/bash
# Please define your own path here
huggingface_path=YOUR_PATH
يمكنك تغيير YOUR_PATH إلى موقع الدليل المطلق من ذاكرة التخزين المؤقت لـ Huggingface (مثل /disk1/yisong/hf-cache ).
conda activate
cd ELCo
bash scripts/unsupervised.sh
conda activate
cd ELCo
bash scripts/fine-tune.sh
conda activate
cd ELCo
bash scripts/scaling.sh
يتم تخزين جميع الكود في دليل scripts . توجد البيانات في Benchmark_Data.
تقوم ملفات Bash الخاصة بنا بتنفيذ التكوينات المختلفة لـ emote.py :
emote.py : وحدة التحكم في مجموعة كاملة من التجارب. يتم أيضًا تنفيذ لوادر البيانات والمشفرات هنا ؛emote_config.py : يأخذ ملف التكوين هذا المعلمات من ArgParse كمدخلات وإرجاع فئة التكوين ، وهي مريحة للوظائف اللاحقة للاتصال ؛unsupervised.py : يسمى emote.py ، فإنه يقوم بتقييم غير خاضع للإشراف باستخدام نموذج مجمد pretrated على مجموعة بيانات mnli. في المدى الأول ، سيتم تنزيل طراز مسبق من Huggingface إلى huggingface_path المحدد. تأكد من وجود مساحة كافية متوفرة (نوصي بما لا يقل عن 20 جيجابايت). يتم حفظ النتائج في benchmark_data/results/TE-unsup/ الدليل. سيتم إنشاء هذا الدليل تلقائيًا بمجرد إجراء التجارب ؛finetune.py : كما يسمى emote.py ، فإنه يرفرف النماذج المسبقة. يقوم هذا البرنامج النصي بحفظ classification_report لكل عصر صقل ويسجل أفضل دقة اختبار (عندما يتم تحسين دقة التحقق من الصحة) في ملف _best.csv في benchmark_data/results/TE-finetune/ directory. سيتم إنشاء هذا الدليل تلقائيًا بمجرد إجراء التجارب. إذا وجدت عملنا مثيرًا للاهتمام ، فنحن نرحب جدًا بتجربة مجموعة البيانات/الكود.
يرجى التكرم في بحثنا إذا كنت قد استخدمت مجموعة البيانات/قاعدة البيانات الخاصة بنا:
@inproceedings{ELCoDataset2024,
title = "The ELCo Dataset: Bridging Emoji and Lexical Composition",
author = {Yang, Zi Yun and
Zhang, Ziqing and
Miao, Yisong},
booktitle = "Proceedings of The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation",
month = May,
year = "2024",
address = "Turino, Italy",
}
إذا كانت لديك أسئلة أو تقارير أخطاء ، فيرجى إثارة مشكلة أو الاتصال بنا مباشرة عبر البريد الإلكتروني:
عنوان البريد الإلكتروني: ؟@؟
أين؟ ️ = yisong ،؟ = comp.nus.edu.sg
CC بحلول 4.0