تنزيل language_model_tf - language_model_tf تنزيل رمز المصدر

language_model_tf

كود الذكاء الاصطناعي

1.0.0

تنزيل

نموذج اللغة

نمذجة اللغة هي مهمة تُحدد احتمالات لتسلسل الكلمات أو الوحدات اللغوية المختلفة (على سبيل المثال ، الكلمة الفرعية ، الجملة ، إلخ). تعتبر نمذجة اللغة واحدة من أهم مشكلة في معالجة اللغة الطبيعية الحديثة (NLP) وتستخدم في العديد من تطبيقات NLP (على سبيل المثال التعرف على الكلام ، الترجمة الآلية ، تلخيص النص ، تصحيح الإملاء ، الإكمال التلقائي ، إلخ). في السنوات القليلة الماضية ، حققت الأساليب العصبية نتائج أفضل من الأساليب الإحصائية التقليدية في العديد من معايير نموذج اللغة. علاوة على ذلك ، أظهر العمل الأخير أن نموذج اللغة قبل التدريب يمكن أن يحسن العديد من مهام NLP بطرق مختلفة ، بما في ذلك الاستراتيجيات القائمة على الميزات (على سبيل المثال Elmo ، إلخ) واستراتيجيات الضبط (مثل Openai GPT أو BERT ، إلخ) ، أو حتى في إعداد الصفر (مثل Openai GPT-2 ، إلخ).

الشكل 1: مثال على الإكمال التلقائي مدعوم بنمذجة اللغة

جلسة

بيثون 3.6.6
Tensorflow 1.12
Numpy 1.15.4
NLTK 3.3

مجموعة البيانات

تحتوي Wikipedia Corpus على حوالي ملياري كلمة من النص من تفريغ 2014 من ويكيبيديا (حوالي 4.4 مليون صفحة). بقدر ما ندرك ، فإن بيانات النص الكامل لـ Wikipedia هي الإصدار الوحيد المتاح من نسخة حديثة من ويكيبيديا.
BooksCorpus: الكتب هي مصدر غني لكل من المعلومات الدقيقة ، وكيف تبدو الشخصية أو الكائن أو المشهد ، بالإضافة إلى دلالات عالية المستوى ، وما يفكر فيه شخص ما ، وكيف تتطور هذه الحالات من خلال قصة. يهدف هذا العمل إلى مواءمة الكتب مع إصدارات أفلامها من أجل توفير تفسيرات وصفية غنية للمحتوى المرئي الذي يتجاوز بكثير التسميات التوضيحية المتوفرة في مجموعات البيانات الحالية.
يتم استهداف معيار كلمة بقيمة مليار كلمة لإتاحة إعداد التدريب والاختبار القياسي لتجارب نمذجة اللغة. يحتوي هذا المعيار على ما يقرب من مليار كلمة من بيانات التدريب ، ويهدف إلى مساعدة الباحث على تقييم أساليب نمذجة اللغة الجديدة بسرعة ، ومقارنة المساهمات بسهولة عند دمجها مع التقنيات المتقدمة الأخرى.
القفازات هي خوارزمية تعليمية غير خاضعة للإشراف للحصول على تمثيل المتجهات للكلمات. يتم تنفيذ التدريب على إحصاءات تواجد الكلمات العالمية المجمعة من مجموعة من مجموعة ، ويعرض التمثيلات الناتجة الهياكل الخطية الخطية المثيرة للاهتمام لمساحة ناقلات الكلمة.

الاستخدام

بيانات المعالجة المسبقة

 # convert raw data
python preprocess/convert_data.py --dataset wikipedia --input_dir data/wikipedia/raw --output_dir data/wikipedia/processed --min_seq_len 0 --max_seq_len 512
# prepare vocab & embed files
python prepare_resource.py 
--input_dir data/wikipedia/processed --max_word_size 512 --max_char_size 16 
--full_embedding_file data/glove/glove.840B.300d.txt --word_embedding_file data/wikipedia/resource/lm.word.embed --word_embed_dim 300 
--word_vocab_file data/wikipedia/resource/lm.word.vocab --word_vocab_size 100000 
--char_vocab_file data/wikipedia/resource/lm.char.vocab --char_vocab_size 1000

تشغيل التجربة

 # run experiment in train + eval mode
python language_model_run.py --mode train_eval --config config/config_lm_template.xxx.json
# run experiment in train only mode
python language_model_run.py --mode train --config config/config_lm_template.xxx.json
# run experiment in eval only mode
python language_model_run.py --mode eval --config config/config_lm_template.xxx.json

تشفير النص

 # encode text as ELMo vector
python language_model_run.py --mode encode --config config/config_lm_template.xxx.json

ابحث عن المعلمة Hyper

 # random search hyper-parameters
python hparam_search.py --base-config config/config_lm_template.xxx.json --search-config config/config_search_template.xxx.json --num-group 10 --random-seed 100 --output-dir config/search

تصور ملخص

 # visualize summary via tensorboard
tensorboard --logdir=output

نموذج

نموذج لغة ثنائية الاتجاه (BILM)

بالنظر إلى تسلسل ، يحسب نموذج اللغة ثنائية الاتجاه احتمال التسلسل للأمام ،

ثم يتم تشغيله فوق التسلسل بترتيب عكسي لحساب احتمال التسلسل ،

يمر التسلسل أولاً من خلال طبقة التضمين المشتركة ، ثم يتم تصميمه بواسطة RNN متعدد الطبقات (على سبيل المثال LSTM ، GRU ، إلخ) في كلا الاتجاهين وأخيراً يتم تطبيق تطبيع Softmax للحصول على الاحتمالات ،

الشكل 2: بنية نموذج اللغة ثنائية الاتجاه (المصدر: نماذج اللغة المعممة)

يتم تدريب النموذج من خلال تقليل احتمال السجل السلبي للاتجاهات إلى الأمام والخلف ،

مرجع

ماثيو إي بيترز ، مارك نيومان ، موهيت آيير ، ماثيو غاردنر ، كريستوفر تي كلارك ، كنتون لي ، ولوك س. zettlemoyer. تمثيلات الكلمات العميقة السياقية [2018]
أليك رادفورد ، كارثيك ناراسيمهان ، تيم سليمانز وإيليا سوتسكفر. تحسين فهم اللغة من خلال التدريب قبل التدريب [2018]
يعقوب ديفلين ، مينغ واي تشانغ ، كنتون لي ، وكريستينا توتانوفا. بيرت: ما قبل التدريب من محولات ثنائية الاتجاه العميقة لفهم اللغة [2018]
أليك رادفورد ، جيفري وو ، ريون تشايلد ، ديفيد لوان ، داريو أمودي وإيليا سوتسكفر. نماذج اللغة متعلمين في المهام المتعددة غير الخاضعة للإشراف [2019]

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-09-10
الحجم 512.94KB
من Github

تطبيقات ذات صلة

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Dog_Fox_Bunny

2022-08-01
محرك تحليل البيانات Lihua الإصدار المجاني 3.0_search_navigation_collection_public Oplic_ranking_api

2022-06-28

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل