تنزيل Phrase Based Model - تنزيل رمز مصدر Phrase Based Model

Phrase Based Model

كود الذكاء الاصطناعي

1.0.0

تنزيل

العبارة القائمة على المترجمة

يتكون هذا المستودع من المشروع الذي تم كجزء من معالجة اللغة الطبيعية - Advanced ، Spring 2014. تم تعليمات الدورة الدكتورة Dipti Misra Sharma و Dr. Ravi Jampani والسيد Akula Reddy

تقرير مفصل متاح هنا

##متطلبات

بيثون 2.6 أو أعلى
Giza ++
نموذج اللغة (IRSTLM)

## مشكلة في هذا المشروع ، يتم تنفيذ النموذج القائم على العبارة. النموذج القائم على العبارات هو نموذج بسيط للترجمة الآلية التي تعتمد فقط على الترجمة المعجمية ، وترجمة العبارات. هذا يتطلب قاموسًا يقوم بتعيين عبارات من لغة إلى أخرى. نجد أولاً محاذاة الكلمة. بعد ذلك ، باستخدام مجموعة النص الثنائي ، نقوم بتدريب النموذج وحساب احتمال الترجمة. جنبا إلى جنب مع احتمالات الترجمة نستخدم نموذج اللغة لتعكس الطلاقة في اللغة الإنجليزية.

يتكون المجلد المصدر من الطرق التالية:

### الوظائف الرئيسية

المعالجة المسبقة
تأخذ هذه الوحدة كإدخال أجسام النص الثنائية وعدد الجمل. يعيد مجموعة بيانات التدريب والاختبار إلى جانب أزواج الجملة.

قم بتشغيل الأمر التالي لإنشاء مجموعة عشوائية من جمل X:

Python preprocess.py sourcecorpus targetcorpus numberOfSentencesfortraining

سوف يولد أربعة ملفات:
Termingource.txt TrainingTarget.txt testingsource.txt testingTarget.txt
Trainingsource.txt ، TrainingTarget.txt: يحتوي على عدد معين من الجمل
testingsource.txt ، testingTarget.txt: يحتوي على 5 جمل اختبار نستخدمها لاحقًا

قم بتشغيل أداة محاذاة Word ، Giza ++ للحصول على المحاذاة.

من أجل تشغيل Giza ++ القيام بما يلي:

./plain2snt.out termsource.txt TrainingTarget.txt
./giza++ -s terkingource.vcb -t TrainingTarget.vcb -c termingource_trainingtarget.snt

إذا كانت الخطوة السابقة تعطي خطأ ، فافعل:

./SNT2COOC.OUT TRAIDINGSORCE.VCB TrainpTarget.VCB Termsource_TrainingTarget.snt> cooc.cooc
./giza++ -s terkingource.vcb -t TrainingTarget.vcb -C Termingource_trainingTarget.snt -CoocurrenceFile COOC.COOC

هذا سوف يولد عدة ملفات. توجد محاذاة كلمة في ملف A3. كرر هذه الخطوة عن طريق تبديل teringingource.txt و trainingTarget.txt للحصول على محاذاة الاتجاه الأخرى. ثم نحصل على العبارات على النحو التالي:

phraseextraction.py
تقرأ هذه الوظيفة ملفين تم إنشاؤهما بواسطة Giza ++ يحتويان على محاذاة المصدر لاستهدافها واستهدافها إلى المصدر وإرجاع جميع العبارات الممكنة المرتبطة به. قم بتشغيل الأمر التالي للحصول على العبارات:

Python phraseextraction.py sourcealignment.txt targetalignment.txt
يتم إنشاء العبارات في ملفات الملف. بعد ذلك نحسب احتمال الترجمة.

FindTransLationProbability.py
بعد الحصول على العبارات المتسقة من خوارزمية استخراج العبارة ، نتحرك التالي للعثور على الترجمة. يتم ذلك عن طريق حساب الأحداث النسبية للعبارة المستهدفة لعبارة مصدر معينة لكلا الاتجاهين

قم بتشغيل الأمر التالي:

Python FindTransLationProbability.py phrases.txt
سوف يولد ملفين:
ترجمة الترجمة
ترجمة الترجمة

languagemodelinput.py
هذا يساعد في تنسيق ملف الإدخال إلى نموذج اللغة. يزيل جميع الشخصيات الخاصة. من أجل تشغيل هذا ، نفعل ما يلي:

Python languagemodelinput.py trains.txt trains.txt
Python languagemodelinput.py triantarget.txt trant.txt

قم بإنشاء ملف ZIP لهذا الغرض الذي يتم الآن إدخاله لنموذج اللغة. يتم تشغيله على النحو التالي:

.
./tlm -tr = train.www -n = 3 -lm = wb -o = trains.lm
.
./tlm -tr = train.www -n = 3 -lm = wb -o = trant.lm

نهائيات

بعد الحصول على قابلية الترجمة من مصفوفة المحاذاة ، يجمع بين احتمال الترجمة من نموذج اللغة ويعيد إمكانية FindTranslationProbbob.

قم بتشغيل الأمر المتقلبة لكلا الاتجاهين:
Python Finalscore.py TranslationPabilityTargetGivensource.txt Trainsource.LM FinalTransLationProbabilityTargetGivensource.txt
Python Finalscore.py TranslationSourceGiventArget.txt Trentarget.LM FinalTransLationProbabilitySourceGiventArget.txt

يقوم بإرجاع احتمالات الترجمة النهائية للملف

StackDecoding.py
بمجرد أن نحصل على probabilites tranlation النهائية ، نحصل على أفضل ترجمة عبارة. تعطي هذه الوظيفة الترجمة لجملة معينة بناءً على إعادة التركيب الفرضية. قم بتشغيل الأمر التالي:

Python Finalscore.py FinalTransLationProbabilityTargetGivensource.txt testingTarget.txt
Python Finalscore.py النهائي

### وظيفة المساعد:

محاذاة
هذه وظيفة مساعد تنشئ مصفوفة محاذاة كلمة لزوج من الجمل.

### تحليل الخطأ
طريقة erroranalysis.py يأخذ كمدخل بتنسيق محدد للغاية. بالنظر إلى الجملة المصدر ، الجملة المترجمة والترجمة الفعلية مفصولة بواسطة NewLine ، فإنها تُرجع الدقة والاستدعاء لملف الإدخال في evalution.txt

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-09-10
الحجم 9.27KB
من Github

تطبيقات ذات صلة

GitHub sgrebnov/cordova plugin background download

2024-11-05
Enhanced Blockchain Based Decentralized Public Auditing for Cloud Storage

2024-11-04
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Retrieval based Voice Conversion WebUI

2024-11-01
نموذج برنامج حساب العجز الحرج للأكسجين

2024-07-29

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل