ดาวน์โหลด Phrase Based Model - ดาวน์โหลดรหัส Phrase Based Model

Phrase Based Model

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

การแปลวลี

พื้นที่เก็บข้อมูลนี้ประกอบด้วยโครงการที่ทำเป็นส่วนหนึ่งของการประมวลผลภาษาธรรมชาติ - ขั้นสูงฤดูใบไม้ผลิ 2014 หลักสูตรนี้ได้รับคำสั่งจาก Dr. Dipti Misra Sharma, Dr. Ravi Jampani และ Mr. Akula Arjun Reddy

มีรายงานโดยละเอียดที่นี่

##ความต้องการ

Python 2.6 หรือสูงกว่า
Giza ++
รูปแบบภาษา (irstlm)

## ปัญหาในโครงการนี้โมเดลที่ใช้วลีจะถูกนำมาใช้ โมเดลที่ใช้วลีเป็นแบบจำลองง่าย ๆ สำหรับการแปลของเครื่องที่ใช้การแปลคำศัพท์เพียงอย่างเดียวการแปลวลี สิ่งนี้ต้องใช้พจนานุกรมที่แมปวลีจากภาษาหนึ่งไปยังอีกภาษาหนึ่ง ก่อนอื่นเราจะพบการจัดตำแหน่งของคำ ต่อไปโดยใช้คลังข้อมูล Bi-text เราฝึกอบรมแบบจำลองและคำนวณความน่าจะเป็นในการแปล พร้อมกับความน่าจะเป็นการแปลที่เราใช้แบบจำลองภาษาเพื่อสะท้อนความคล่องแคล่วในภาษาอังกฤษ

โฟลเดอร์ต้นทางประกอบด้วยวิธีการต่อไปนี้:

### ฟังก์ชั่นหลัก

preprocess.py
โมดูลนี้ใช้เป็นอินพุตคลังข้อมูล bi-text และจำนวนประโยค มันส่งคืนชุดข้อมูลการฝึกอบรมและการทดสอบพร้อมกับคู่ประโยค

เรียกใช้คำสั่งต่อไปนี้เพื่อสร้างชุด X แบบสุ่มประโยค:

python preprocess.py sourcecorpus targetcorpus numberofsentencesfortraining

มันจะสร้างสี่ไฟล์:
TrainingSource.txt TrainingTarget.txt testingsource.txt testingtarget.txt
TrainingSource.txt, TrainingTarget.txt: มีจำนวนประโยคที่กำหนด
testingSource.txt, testingTarget.txt: มี 5 ประโยคทดสอบที่เราใช้ในภายหลัง

ถัดไปเรียกใช้เครื่องมือการจัดตำแหน่งคำ Giza ++ เพื่อรับการจัดตำแหน่ง

เพื่อที่จะเรียกใช้ Giza ++ ทำสิ่งต่อไปนี้:

./plain2snt.out TrainingSource.txt TrainingTarget.txt
./GIZA+ -S TrainingSource.vcb -t TrainingTarget.vcb -C TrainingSource_trainingTarget.snt

หากขั้นตอนก่อนหน้ามีข้อผิดพลาดให้ทำ:

./SNT2COOC.OUT TrainingSource.VCB TrainingTarget.vcb TrainingSource_trainingTarget.snt> cooc.cooc
./GIZA+ -S TrainingSource.vcb -t TrainingTarget.vcb -C TrainingSource_trainingTarget.snt -coocurrencefile cooc.cooc.

สิ่งนี้จะสร้างไฟล์หลายไฟล์ การจัดตำแหน่งคำมีอยู่ในไฟล์ A3 ทำซ้ำขั้นตอนนี้โดยการสลับ trainingsource.txt และ trainingtarget.txt เพื่อให้ได้การจัดตำแหน่งทิศทางอื่น ๆ ให้ lelet sourcealignment.txt และ targetalignment.txt เป็นสองไฟล์ จากนั้นเราจะได้วลีดังนี้:

phraseExtraction.py
ฟังก์ชั่นนี้อ่านสองไฟล์ที่สร้างโดย Giza ++ ที่มีการจัดตำแหน่งของแหล่งที่มาเพื่อกำหนดเป้าหมายและกำหนดเป้าหมายไปยังแหล่งที่มาและส่งคืนวลีที่เป็นไปได้ทั้งหมดที่เกี่ยวข้อง เรียกใช้คำสั่งต่อไปนี้เพื่อรับวลี:

python phraseExtraction.py sourcealignment.txt targetalignment.txt
วลีถูกสร้างขึ้นในไฟล์ phrases.txt ต่อไปเราคำนวณความน่าจะเป็นการแปล

findTranslationProbability.py
หลังจากได้รับวลีที่สอดคล้องกันจากอัลกอริทึมการสกัดวลีเราจะย้ายต่อไปเพื่อค้นหาความสามารถในการแปล สิ่งนี้ทำได้โดยการคำนวณการเกิดขึ้นสัมพัทธ์ของวลีเป้าหมายสำหรับวลีแหล่งที่มาสำหรับทั้งสองทิศทาง

เรียกใช้คำสั่งต่อไปนี้:

Python findTranslationProbability.py phrases.txt
มันจะสร้างสองไฟล์:
TranslationProbabilitySourceGiventArget.txt
TranslationProbabilityTargetGivenSource.txt

languageModelInput.py
สิ่งนี้ช่วยในการจัดรูปแบบไฟล์อินพุตไปยังรูปแบบภาษา มันลบอักขระพิเศษทั้งหมด เพื่อที่จะเรียกใช้สิ่งนี้เราทำสิ่งต่อไปนี้:

python languageModelInput.py trainsource.txt trains.txt
python languageModelInput.py traintarget.txt traint.txt

สร้างไฟล์ zip สำหรับสิ่งนี้ซึ่งตอนนี้อินพุตสำหรับโมเดลภาษา มันทำงานดังนี้:

./ngt -i = "gunzip -c trains.gz" -n = 3 -o = train.www -b = ใช่
./tlm -tr = train.www -n = 3 -lm = wb -o = trains.lm
./ngt -i = "gunzip -c traint.gz" -n = 3 -o = train.www -b = ใช่
./tlm -tr = train.www -n = 3 -lm = wb -o = traint.lm

finalscore.py

หลังจากได้รับความสามารถในการแปลจากเมทริกซ์การจัดตำแหน่งจะรวมความน่าจะเป็นการแปลจากโมเดลภาษาและส่งคืน FindTranslationProbability

เรียกใช้คำสั่ง Follwowing สำหรับทั้งสองทิศทาง:
python finalscore.py การแปลความสามารถในการแปล
python finalscore.py การแปลความสามารถ

มันส่งคืนความน่าจะเป็นการแปลสุดท้ายของไฟล์

stackdecoding.py
เมื่อเราได้รับความน่าจะเป็น tranlation สุดท้ายเราจะได้รับการแปลวลีที่ดีที่สุด ฟังก์ชั่นนี้ให้การแปลสำหรับประโยคที่กำหนดตามสมมติฐาน reombiniation เรียกใช้คำสั่งต่อไปนี้:

python finalscore.py finaltranslationprobabilitytargetgivensource.txt testingtarget.txt
python finalscore.py finaltranslationprobabilitysourcegiventarget.txt testingsource.txt

### ฟังก์ชั่นผู้ช่วย:

การจัดตำแหน่ง
นี่คือฟังก์ชั่นผู้ช่วยที่สร้างเมทริกซ์การจัดตำแหน่งคำสำหรับประโยคคู่หนึ่ง

### การวิเคราะห์ข้อผิดพลาด
วิธี orsroranalysis.py ใช้เป็นอินพุตในรูปแบบที่เฉพาะเจาะจงมาก เมื่อพิจารณาถึงประโยคต้นฉบับประโยคที่แปลและการแปลจริงคั่นด้วย NewLine มันจะส่งคืนความแม่นยำและเรียกคืนสำหรับไฟล์อินพุตในการประเมิน. txt

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-09-10
ขนาด 9.27KB
มาจาก Github

แอปที่เกี่ยวข้อง

GitHub sgrebnov/cordova plugin background download

2024-11-05
Enhanced Blockchain Based Decentralized Public Auditing for Cloud Storage

2024-11-04
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Retrieval based Voice Conversion WebUI

2024-11-01
แบบจำลองซอฟต์แวร์คำนวณการขาดออกซิเจนขั้นวิกฤติ

2024-07-29

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด