تنزيل torchnlp - تنزيل رمز المصدر torchnlp

torchnlp

شفرة المصدر الأخرى

Initial Release

تنزيل

torchnlp

Torchnlp هي مكتبة تعليمية عميقة لمهام NLP. بنيت على Pytorch و Torchtext ، إنها محاولة لتوفير مكونات قابلة لإعادة الاستخدام التي تعمل عبر المهام. حاليًا يمكن استخدامه في مهام التعرف على الكيان المسماة (NER) ومهام الضبط مع نموذج LSTM CRF ثنائي الاتجاه ونموذج شبكة المحولات. يمكن أن تدعم أي مجموعة بيانات تستخدم تنسيق CONLL 2003. سيتم إضافة المزيد من المهام قريبًا

سير العمل عالي المستوى

تحديد مهمة NLP
تمديد فئة Model وتنفيذ طرق forward() والخسارة loss() لإرجاع التنبؤات والخسارة على التوالي
استخدم فئة HParams لتحديد مكافآت النموذج بسهولة
حدد وظيفة البيانات لإرجاع تكرارات مجموعة البيانات ، والمفردات وما إلى ذلك باستخدام TorchText API. تحقق من conll.py للحصول على مثال
قم بإعداد فئات Evaluator Trainer لاستخدام النموذج وتكرارات مجموعة البيانات والمقاييس. تحقق من ner.py للحصول على التفاصيل
قم بتشغيل المدرب للحصول على العدد المطلوب من الحقبة إلى جانب معايير التوقف المبكرة
استخدم المقيِّم لتقييم النموذج المدرب على تقسيم مجموعة بيانات معينة
قم بتشغيل الاستدلال على النموذج المدرب باستخدام معالجات الإدخال المتاحة

مكونات الغلاية

Model : يتعامل مع التحميل وتوفير النماذج بالإضافة
HParams : فئة عامة لتحديد فرط الأبرامير. يمكن أن يستمر
Trainer : تدريب نموذج معين على مجموعة بيانات. يدعم ميزات مثل جداول تسوس معدل التعلم المحددة مسبقًا والتوقف المبكر
Evaluator : يقيم النموذج على مجموعة بيانات ومقاييس متعددة محددة مسبقًا أو مخصصة.
get_input_processor_words : استخدم أثناء الاستدلال لتحويل سلاسل الإدخال بسرعة إلى تنسيق يمكن معالجته بواسطة نموذج

النماذج المتاحة

transformer.Encoder ، transformer.Decoder : تنفيذ شبكة transfomer من الانتباه هو كل ما تحتاجه
CRF : طبقة الحقل العشوائي الشرطي والتي يمكن استخدامها كإخراج نهائي
TransformerTagger : نموذج وضع العلامات التسلسلية يتم تنفيذها باستخدام شبكة المحولات و CRF
BiLSTMTagger : نموذج وضع العلامات التسلسلية المنفذة باستخدام LSTMS ثنائية الاتجاه و CRF

تثبيت

يتطلب Torchnlp الحد الأدنى من Python 3.5 و Pytorch 0.4.0 لتشغيله. تحقق من Pytorch لخطوات التثبيت. استنساخ هذا المستودع وتثبيت تبعيات أخرى مثل Torchtext:

 pip install -r requirements.txt

انتقل إلى جذر المشروع وتحقق من النزاهة مع Pytest:

 pytest

تثبيت هذا المشروع:

 python setup.py

الاستخدام

تم تصميم Torchnlp لاستخدامه داخل مترجم Python لتسهيل التجربة دون كتابة وسيطات سطر الأوامر المرهقة.

مهمة ner

يمكن تشغيل مهمة NER على أي مجموعة بيانات تؤكد لتنسيق CONLL 2003. لاستخدام مجموعة بيانات CONLL 2003 NER ضع ملفات مجموعة البيانات في بنية الدليل التالية ضمن جذر مساحة العمل الخاصة بك:

 .data
  |
  |---conll2003
          |
          |---eng.train.txt
          |---eng.testa.txt
          |---eng.testb.txt

يتم استخدام eng.testa.txt مجموعة بيانات التحقق من الصحة ويتم استخدام eng.testb.txt كمجموعة بيانات الاختبار.

ابدأ وحدة NER في قذيفة Python التي تقوم بإعداد الواردات:

 python -i -m torchnlp.ner

 Task: Named Entity Recognition

Available models:
-------------------
TransformerTagger

    Sequence tagger using the Transformer network (https://arxiv.org/pdf/1706.03762.pdf)
    Specifically it uses the Encoder module. For character embeddings (per word) it uses
    the same Encoder module above which an additive (Bahdanau) self-attention layer is added

BiLSTMTagger

    Sequence tagger using bidirectional LSTM. For character embeddings per word
    uses (unidirectional) LSTM


Available datasets:
-------------------
    conll2003: Conll 2003 (Parser only. You must place the files)

>>>

تدريب نموذج المحولات على مجموعة بيانات Conll 2003:

 >>> train('ner-conll2003', TransformerTagger, conll2003)

الوسيطة الأولى هي اسم المهمة. تحتاج إلى استخدام نفس اسم المهمة أثناء التقييم والاستدلال. بشكل افتراضي ، ستستخدم وظيفة القطار مقياس F1 مع نافذة من 5 عصر لأداء التوقف المبكر. لتغيير معايير التوقف المبكرة ، حدد المتغير العالمي PREFS على النحو التالي:

 >>> PREFS.early_stopping='lowest_3_loss'

سيستخدم هذا الآن فقدان التحقق من الصحة باعتباره معايير التوقف مع نافذة من 3 عصر. يتم حفظ ملفات النماذج ضمن دليل اسم TaskName-ModelName . في هذه الحالة ، يكون NER-CONLL2003-TRANSFORMERTAGRAGT

تقييم النموذج المدرب على تقسيم مجموعة بيانات TestB :

 >>> evaluate('ner-conll2003', TransformerTagger, conll2003, 'test')

ستعرض مقاييس مثل الدقة ، ودقة التسلسل ، و F1 إلخ

قم بتشغيل النموذج المدرب بشكل تفاعلي لمهمة NER:

 >>> interactive('ner-conll2003', TransformerTagger)
...
Ctrl+C to quit
> Tom went to New York
I-PER O O I-LOC I-LOC

يمكنك بالمثل تدريب نموذج LSTM CRF ثنائي الاتجاه باستخدام فئة BiLSTMTagger . تخصيص أجهزة التمييز بشكل مستقيم إلى الأمام. دعونا نلقي نظرة على فرطاميرات لـ TransformerTagger :

 >>> h2 = hparams_transformer_ner()
>>> h2

Hyperparameters:
 filter_size=128
 optimizer_adam_beta2=0.98
 learning_rate=0.2
 learning_rate_warmup_steps=500
 input_dropout=0.2
 embedding_size_char=16
 dropout=0.2
 hidden_size=128
 optimizer_adam_beta1=0.9
 embedding_size_word=300
 max_length=256
 attention_dropout=0.2
 relu_dropout=0.2
 batch_size=100
 num_hidden_layers=1
 attention_value_channels=0
 attention_key_channels=0
 use_crf=True
 embedding_size_tags=100
 learning_rate_decay=noam_step
 embedding_size_char_per_word=100
 num_heads=4
 filter_size_char=64

الآن دعنا نتعطش طبقة CRF:

 >>> h2.update(use_crf=False)

Hyperparameters:
filter_size=128
optimizer_adam_beta2=0.98
learning_rate=0.2
learning_rate_warmup_steps=500
input_dropout=0.2
embedding_size_char=16
dropout=0.2
hidden_size=128
optimizer_adam_beta1=0.9
embedding_size_word=300
max_length=256
attention_dropout=0.2
relu_dropout=0.2
batch_size=100
num_hidden_layers=1
attention_value_channels=0
attention_key_channels=0
use_crf=False
embedding_size_tags=100
learning_rate_decay=noam_step
embedding_size_char_per_word=100
num_heads=4
filter_size_char=64

استخدمه لإعادة تدريب النموذج:

 >>> train('ner-conll2003-nocrf', TransformerTagger, conll2003, hparams=h2)

جنبا إلى جنب مع النموذج يتم حفظها أيضًا ، لذلك ليست هناك حاجة لتمرير كائن HParams أثناء التقييم. لاحظ أيضًا أنه بشكل افتراضي لن يكتب أي أدلة نموذجية موجودة (سيتم إعادة تسمية بدلاً من ذلك). لتغيير هذا السلوك ، قم بتعيين متغير prefs:

 >>> PREFS.overwrite_model_dir = True

يتم استمرار متغير PREFS تلقائيًا في prefs.json

مهمة الصلابة

تتوفر مجموعة بيانات CONLL 2000 لمهمة التقطيع. يتم تنزيل مجموعة البيانات تلقائيًا من المستودع العام حتى لا تحتاج إلى تنزيله يدويًا.

ابدأ مهمة الضبط:

 python -i -m torchnlp.chunk

تدريب نموذج المحولات:

 >>> train('chunk-conll2000', TransformerTagger, conll2000)

لا يوجد قسم التحقق من الصحة المقدم في المستودع وبالتالي يتم استخدام 10 ٪ من مجموعة التدريب للتحقق من الصحة.

تقييم النموذج في مجموعة الاختبار:

 >>> evaluate('chunk-conll2000', TransformerTagger, conll2000, 'test')

الاستخدام المستقل

يمكن استيراد وحدات transformer.Encoder و transformer.Decoder و CRF بشكل مستقل لأنها تعتمد فقط على pytorch:

 from torchnlp.modules.transformer import Encoder
from torchnlp.modules.transformer import Decoder
from torchnlp.modules.crf import CRF

يرجى الرجوع إلى التعليقات في الكود المصدر لمزيد من التفاصيل حول الاستخدام

يوسع

معلومات إضافية

الإصدار Initial Release
النوع شفرة المصدر الأخرى
وقت التحديث 2025-04-19
الحجم 2.11MB
من Github

تطبيقات ذات صلة

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل