พื้นที่เก็บข้อมูลนี้ประกอบด้วยโครงการที่ทำเป็นส่วนหนึ่งของการประมวลผลภาษาธรรมชาติ - ขั้นสูงฤดูใบไม้ผลิ 2014 หลักสูตรนี้ได้รับคำสั่งจาก Dr. Dipti Misra Sharma, Dr. Ravi Jampani และ Mr. Akula Arjun Reddy
มีรายงานโดยละเอียดที่นี่
##ความต้องการ
## ปัญหาในโครงการนี้โมเดลที่ใช้วลีจะถูกนำมาใช้ โมเดลที่ใช้วลีเป็นแบบจำลองง่าย ๆ สำหรับการแปลของเครื่องที่ใช้การแปลคำศัพท์เพียงอย่างเดียวการแปลวลี สิ่งนี้ต้องใช้พจนานุกรมที่แมปวลีจากภาษาหนึ่งไปยังอีกภาษาหนึ่ง ก่อนอื่นเราจะพบการจัดตำแหน่งของคำ ต่อไปโดยใช้คลังข้อมูล Bi-text เราฝึกอบรมแบบจำลองและคำนวณความน่าจะเป็นในการแปล พร้อมกับความน่าจะเป็นการแปลที่เราใช้แบบจำลองภาษาเพื่อสะท้อนความคล่องแคล่วในภาษาอังกฤษ
โฟลเดอร์ต้นทางประกอบด้วยวิธีการต่อไปนี้:
### ฟังก์ชั่นหลัก
เรียกใช้คำสั่งต่อไปนี้เพื่อสร้างชุด X แบบสุ่มประโยค:
python preprocess.py sourcecorpus targetcorpus numberofsentencesfortraining
มันจะสร้างสี่ไฟล์:
TrainingSource.txt TrainingTarget.txt testingsource.txt testingtarget.txt
TrainingSource.txt, TrainingTarget.txt: มีจำนวนประโยคที่กำหนด
testingSource.txt, testingTarget.txt: มี 5 ประโยคทดสอบที่เราใช้ในภายหลัง
ถัดไปเรียกใช้เครื่องมือการจัดตำแหน่งคำ Giza ++ เพื่อรับการจัดตำแหน่ง
เพื่อที่จะเรียกใช้ Giza ++ ทำสิ่งต่อไปนี้:
./plain2snt.out TrainingSource.txt TrainingTarget.txt
./GIZA+ -S TrainingSource.vcb -t TrainingTarget.vcb -C TrainingSource_trainingTarget.snt
หากขั้นตอนก่อนหน้ามีข้อผิดพลาดให้ทำ:
./SNT2COOC.OUT TrainingSource.VCB TrainingTarget.vcb TrainingSource_trainingTarget.snt> cooc.cooc
./GIZA+ -S TrainingSource.vcb -t TrainingTarget.vcb -C TrainingSource_trainingTarget.snt -coocurrencefile cooc.cooc.
สิ่งนี้จะสร้างไฟล์หลายไฟล์ การจัดตำแหน่งคำมีอยู่ในไฟล์ A3 ทำซ้ำขั้นตอนนี้โดยการสลับ trainingsource.txt และ trainingtarget.txt เพื่อให้ได้การจัดตำแหน่งทิศทางอื่น ๆ ให้ lelet sourcealignment.txt และ targetalignment.txt เป็นสองไฟล์ จากนั้นเราจะได้วลีดังนี้:
python phraseExtraction.py sourcealignment.txt targetalignment.txt
วลีถูกสร้างขึ้นในไฟล์ phrases.txt ต่อไปเราคำนวณความน่าจะเป็นการแปล
เรียกใช้คำสั่งต่อไปนี้:
Python findTranslationProbability.py phrases.txt
มันจะสร้างสองไฟล์:
TranslationProbabilitySourceGiventArget.txt
TranslationProbabilityTargetGivenSource.txt
python languageModelInput.py trainsource.txt trains.txt
python languageModelInput.py traintarget.txt traint.txt
สร้างไฟล์ zip สำหรับสิ่งนี้ซึ่งตอนนี้อินพุตสำหรับโมเดลภาษา มันทำงานดังนี้:
./ngt -i = "gunzip -c trains.gz" -n = 3 -o = train.www -b = ใช่
./tlm -tr = train.www -n = 3 -lm = wb -o = trains.lm
./ngt -i = "gunzip -c traint.gz" -n = 3 -o = train.www -b = ใช่
./tlm -tr = train.www -n = 3 -lm = wb -o = traint.lm
หลังจากได้รับความสามารถในการแปลจากเมทริกซ์การจัดตำแหน่งจะรวมความน่าจะเป็นการแปลจากโมเดลภาษาและส่งคืน FindTranslationProbability
เรียกใช้คำสั่ง Follwowing สำหรับทั้งสองทิศทาง:
python finalscore.py การแปลความสามารถในการแปล
python finalscore.py การแปลความสามารถ
มันส่งคืนความน่าจะเป็นการแปลสุดท้ายของไฟล์
python finalscore.py finaltranslationprobabilitytargetgivensource.txt testingtarget.txt
python finalscore.py finaltranslationprobabilitysourcegiventarget.txt testingsource.txt
### ฟังก์ชั่นผู้ช่วย:
### การวิเคราะห์ข้อผิดพลาด
วิธี orsroranalysis.py ใช้เป็นอินพุตในรูปแบบที่เฉพาะเจาะจงมาก เมื่อพิจารณาถึงประโยคต้นฉบับประโยคที่แปลและการแปลจริงคั่นด้วย NewLine มันจะส่งคืนความแม่นยำและเรียกคืนสำหรับไฟล์อินพุตในการประเมิน. txt