جعلت NLP سهلة
ملاحظات رمز بسيطة لشرح لبنات بناء NLP
- تقنيات تجزئة الكلمات الفرعية
- دعنا نقارن مختلف المميزات ، IE ، NLTK ، BPE ، SentencePiece ، و Bert Tokenizer.
- فك تشفير الشعاع
- فك تشفير الشعاع ضروري لمهام SEQ2SEQ. لكن من المعقد للغاية التنفيذ. إليك المرشحين السهل نسبيًا.
- كيفية الحصول على آخر ناقل مخفي من RNNs بشكل صحيح
- سنرى كيفية الحصول على آخر حالات مخفية من RNNs في TensorFlow و Pytorch.
- قالب TensorFlow SEQ2Seq استنادًا إلى مهمة G2P
- سنكتب قالبًا بسيطًا لـ SEQ2Seq باستخدام TensorFlow. للمظاهرة ، نهاجم مهمة G2P. G2P هي مهمة تحويل Graphemes (الإملاء) إلى الصوتيات (النطق). إنه مصدر جيد جدًا لهذا الغرض لأنه بسيط بما يكفي لكي تتجه وتشغيله.
- قالب Pytorch seq2seq استنادًا إلى مهمة G2P
- سنكتب قالبًا بسيطًا لـ SEQ2Seq باستخدام Pytorch. للمظاهرة ، نهاجم مهمة G2P. G2P هي مهمة تحويل Graphemes (الإملاء) إلى الصوتيات (النطق). إنه مصدر جيد جدًا لهذا الغرض لأنه بسيط بما يكفي لكي تتجه وتشغيله.
- [آلية الانتباه] (العمل قيد التقدم)
- تدوين نقاط البيت مع صناديق بيرت
- من المعروف أن Bert جيدة في مهام وضع العلامات التسلسلية مثل التعرف على الكيان المسماة. دعونا نرى ما إذا كان هذا صحيحًا بالنسبة لقياس نقاط البيع.
- التسرب في دقيقة
- يمكن القول إن التسرب هو تقنية التنظيم الأكثر شعبية في التعلم العميق. دعنا نتحقق مرة أخرى من كيفية عملها.
- NGRAM LM مقابل RNNLM (WIP)
- زيادة البيانات لأزواج أسئلة Quora
- دعونا نرى ما إذا كان من الفعال زيادة بيانات التدريب في مهمة أزواج الأسئلة Quora.