هذا الشيء هو واجب منزلي رئيسي لدورة الامتحان الجامعي. لقد كتب بشكل أساسي بطريقة عشوائية. في ذلك الوقت ، لم أكن أعرف شيئًا ولم أتمكن من استخدام جميع أنواع واجهات برمجة التطبيقات ، وبالتالي فإن التنفيذ في العديد من الأماكن كان غير مناسب للغاية. علاوة على ذلك ، قام النموذج أيضًا باختيار أبسط طراز من أجل توفير المتاعب ، وليس له قيمة مرجعية على مستوى الرمز والمستوى الأكاديمي.
بالإضافة إلى ذلك ، نظرًا لعدم وجود إذن لاستخدام البيانات ، لا يمكنني الكشف عن مجموعة البيانات. من فضلك فهم
نظام الأسئلة والأجوبة الصينية على أساس LSTM
يدرك هذا المشروع وظيفة العثور على الجملة التي توجد فيها إجابة سؤال معين في جمل متعددة من خلال إنشاء نموذج شبكة ذاكرة طويل الأجل على المدى القصير. على أساس استخدام موارد الإنترنت من طرف ثالث ، يمكن التحقق من Develop.data باستخدام النموذج المدربين في التدريب. يمكن أن يصل MRR إلى 0.75 أو أعلى.
كيفية الجري
التبعية البيئية
برنامج إصدار بيثون 3.5.2 Tensorflow 1.2.1 جيبا 0.38 كودا 8.0 (8.0.61.2) كودن 5.1 CUDA و CUDNN كلاهما تبعيات Tensorflow. يرجى التحقق من وثائق TensorFlow الرسمية للحصول على طريقة التثبيت. يمكن تثبيت الباقي باستخدام أمر
pip installتعليمات لاستخدام موارد الطرف الثالث
- عند إجراء تجزئة الكلمات على النص الصيني ، يتم استخدام تجزئة Jieba
- عند ترميز الكلمات الجيدة ، يتم استخدام ترميز تضمين الكلمات لتجنب خسائر الأداء الناتجة عن ترميز واحد. يستخدم Vector Word ملف متجه Word Word 50 الذي تم الحصول عليه من خلال التدريب على البيانات في وضع عدم الاتصال في Wikipedia الصينية
تشغيل البرنامج
بعد تثبيت مكتبة التبعية ، فقط قم بتنفيذ main.py مباشرة. إذا كان هناك نموذج تم تدريبه ، فسوف يطالبك البرنامج ما إذا كان سيتم تحميل النموذج مباشرة أو البدء في التدريب مرة أخرى.
Main.py لا يتلقى المعلمات. إذا كنت بحاجة إلى تعديل التكوين ، فيرجى تعديل الرمز مباشرة. هناك تعليقات صينية مفصلة في الملف ، يرجى تعديلها وفقًا لذلك
Taevaluation.py هو برنامج نصي للتقييم يمكنه توفير تقييمات MRR و MAP و ACC@1 ، كتبها مساعد التدريس المساعد. لقد قمت ببعض التعديلات على تنسيق الإدخال والإخراج
حول التدريب
عندما تختار عدم استخدام النموذج المدرب ، أو لا يوجد نموذج مدرب ، سيستخدم البرنامج البيانات في التدريب. data وتطوير. data لتدريب النموذج. عند استخدام المعلمات الافتراضية ، سيستهلك التدريب ما يصل إلى 8G ذاكرة VIDEO + 2G. يرجى التأكد من أن الكمبيوتر لديه موارد أجهزة كافية مقدمًا لمنع تقارير الأخطاء. استغرقت عملية التدريب الكاملة حوالي 12 ساعة تحت شروط GTX 850M+I5 4210H.
بالإضافة إلى ذلك ، عندما قمت بتعديل المعلمات ، حتى مع نفس المعلمات ، قد لا تزال نتائج كل تدريب تتقلب بحد أقصى 0.03 باستخدام مقياس MRR ، والسبب غير واضح. بسبب الأجهزة الشخصية والقيود الزمنية ، تم إجراء تعديل معلمة خشنة للغاية ، ولا تزال معظم المعلمات لديها مجال لمزيد من التحسين. إذا كنت مهتمًا ، فقد تحاول أيضًا تحسينه.