deep_srl Download - deep_srl Source Code Download

deep_srl

شفرة المصدر الأخرى

1.0.0

تنزيل

وضع العلامات على الأدوار الدلالية العميقة

يحتوي هذا المستودع على رمز للتدريب واستخدام نموذج SRL العميق الموصوف في: العلامات على الأدوار الدلالية العميقة: ما الذي ينجح وما هو التالي

إذا كنت تستخدم الكود الخاص بنا ، فيرجى الاستشهاد بالورق الخاص بنا على النحو التالي:

inproceedings {HE2017Deep ،
العنوان = {علامات الدور الدلالي العميق: ما ينجح وما هو التالي} ،
المؤلف =}
booktitle = {وقائع الاجتماع السنوي لجمعية اللغويات الحاسوبية} ،
السنة = {2017}
}

ابدء

المتطلبات الأساسية:

يجب أن يستخدم Python Python 2. يمكنك محاكاة هذا مع VirtualEnV.
PIP تثبيت numpy
PIP تثبيت theano == 0.9.0 (لا يتم اختبار التوصيل مع theano 1.0 بعد)
PIP تثبيت protobuf
PIP تثبيت NLTK (للرمز المميز ، مطلوب فقط لوحدة التحكم التفاعلية)
Sudo APT-GET تثبيت TCSH (مطلوب فقط لمعالجة بيانات CONLL05)
[GIT LARGE FILE STORGY] (https://git-lfs.github.com/): مطلوب لتنزيل ملفات النماذج الكبيرة. بدلاً من ذلك ، يمكنك الحصول على النماذج هنا
تضمينات القفازات والبرامج النصية SRLCONLL:
./scripts/fetch_required_data.sh

نماذج ما قبل

فك ضغط النماذج (في الموارد) تحت دليل Neural_SRL. على سبيل المثال ، ضمن دليل قاعدة الكود:
tar -zxvf resources/conll05_model.tar.gz

فيما يلي قائمة بالنماذج المسبقة:

conll05_model.tar.gz : نموذج واحد تم تدريبه على مجموعة بيانات CONLL-2005.
conll05_ensemble.tar.gz : 5 مجموعة الموديل تدرب على مجموعة بيانات Conll-2005.
conll05_propid_model.tar.gz : قطار نموذج التعرف على Conll-2005.
conll2012_model.tar.gz : نموذج واحد تم تدريبه على مجموعة بيانات CONLL-2012.
conll2012_ensemble.tar.gz : 5 مجموعة الموديل المدربة على مجموعة بيانات CONLL-2012.
conll2012_propid_model.tar.gz : قطار نموذج التعرف على CONLL-2012.

جرب وحدة التحكم التفاعلية!

python python/interactive.py --model conll05_model/ --pidmodel conll05_propid_model

التنبؤ SRL من طرف إلى طرف:

يجري:
./scripts/run_end2end.sh sample_data/sentences_with_predicates.txt temp/sample.out (على وحدة المعالجة المركزية) أو:
./scripts/run_end2end.sh sample_data/sentences_with_predicates.txt temp/sample.out ${gpu_id} (على GPU)

لاحظ أن البرنامج النصي يضيف /usr/local/cuda/... إلى PATH و CUDA_LD_LIBRARY_PATH ، ويقوم بتحميل نماذج مسبقة من ./conll05_propid_model و ./conll05_ensemble ، يرجى ضبط التكوينات وفقًا لإعدادك الخاص.

يحتوي ملف الإدخال على جمل رمزية ، جملة واحدة لكل سطر.

سيحتوي ملف الإخراج على شيء مثل:

أخبر جون بات بقطع الشجرة.
مسند: أخبر (1)
A0: جون
الخامس: قال
A2: بات
A1: لقطع الشجرة

أخبر جون بات بقطع الشجرة.
المسند: قطع (4)
A0: بات
الخامس: قطع
A1: الشجرة

قضية التوسع

قد يستغرق بناء نموذج لأول مرة بعض الوقت (أقل من 30 دقيقة).
يقوم predict.py حاليًا بتحميل ملف الإدخال بأكمله في الذاكرة ، لذلك سيكون من الأفضل الحفاظ على عدد الجمل في كل ملف أقل من 50000.

بيانات conll

لتكرار النتائج على مجموعات بيانات CONLL-2005 و CONLL-2012 ، يرجى اتباع الخطوات أدناه.

Conll-2005

يتم توفير البيانات من خلال: Conll-2005 Square Cassion ، ولكن الكلمات الأصلية هي من مجموعة بيانات Penn Treebank ، والتي ليست متاحة للجمهور. إذا كان لديك مجموعة PTB ، فيمكنك تشغيل:
./scripts/fetch_and_make_conll05_data.sh /path/to/ptb/

Conll-2012

يجب عليك اتباع الإرشادات أدناه للحصول على بيانات CONLL-2012 CONLL-2012 ، وهذا سيؤدي إلى دليل يسمى /path/to/conll-formatted-ontonotes-5.0 CONLL-FORMATTED-INTONOTES-5.0. يجري:
./scripts/make_conll2012_data.sh /path/to/conll-formatted-ontonotes-5.0

التنبؤ SRL بنموذج مدرب

شاهد استخدام python/train.py :
python python/predict.py -h

أو كبداية سريعة ، قم بتشغيل نموذج مدرب (يتطلب conll05_ensemble):
./scripts/run_predict_conll05.sh ${gpu_id} أو:
./scripts/run_predict_conll05.sh لتشغيله على وحدة المعالجة المركزية.

قم بتشغيل النموذج من طرف إلى طرف مع المتوقع (يتطلب conll05_ensemble ، و conll05_propid_model):
./scripts/run_end_to_end_conll05.sh ${gpu_id}

تشغيل نموذج CONLL-2012 يعمل بشكل مشابه.

تدريب نموذج جديد

شاهد استخدام python/train.py :
python python/train.py -h

قم بتدريب نموذج SRL (مع مستحقات الذهب) مع ملفات التكوين المحددة مسبقًا: ./scripts/run_train.sh ${gpu_id}

تدريب معرف المسند: ./scripts/run_propid_train.sh ${gpu_id}

لاحظ أنه في وقت التدريب ، يعمل train.py في نموذج FAST_RUN ، مما سيؤدي إلى زيادة كبيرة في تجميع النموذج. قد يستغرق الأمر عدة دقائق لطراز طبقة 2 ، وما يصل إلى 8 ساعات لطراز طبقة 8 مع تسرب تباين.

تنسيق البيانات

يرجى الرجوع إلى الملفات الموجودة في sample_data والتفسيرات أدناه لكيفية تنسيق إدخال النموذج.

تنسيق العلامات الحيوية لنموذج SRL

يحتوي كل سطر على عينة تدريب واحدة تمامًا ، والتي تحتوي على معلومات مسند (فهرس في الجمل ، بدءًا من 0) ، والجملة الرمزية ، وتسلسل العلامات. إذا كانت العلامات الذهبية غير موجودة ، فما عليك سوى استخدام تسلسل من نظام التشغيل. يتم فصل الجملة وتسلسل العلامة مع ||| رمز. نستخدم تنسيق IOB2. يتم فصل جميع الرموز والرموز عن طريق مساحة بيضاء تعسفية.

خطوط مثال:

2 قطتي تحب القبعات. ||| B-A0 I-A0 BV B-A1 O

تنسيق وضع العلامات لنموذج التعريف المسند

يشبه التنسيق المحدد أعلاه ، باستثناء أن كل سطر يتوافق مع جملة الإدخال ، ولا يتم توفير معلومات مسند. تتوافق البرامج السابقة مع علامات V وكلمات أخرى يتم تصنيفها بعلامات O.

خطوط مثال:

يقولون إن قططتي تحب القبعات. ||| Oovooovo

التكوين للتدريب.

يحتوي config على بعض ملفات التكوين لتدريب نموذج SRL ( srl_config.json و srl_small_config.json ) وكذلك لتدريب نموذج معرف المسند ( propid_config.json )

اتصال

اتصل بـ Luheng إذا كان لديك أي أسئلة!

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2025-04-16
الحجم 53.89KB
من Github

تطبيقات ذات صلة

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
المجال العميق

2023-07-07
لعبة ديب هانتر

2023-07-03
ديب دي

2022-08-30
رون عميق

2022-07-25

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل