Unduh Phrase Based Model - Unduh kode sumber Phrase Based Model

Phrase Based Model

Kode Sumber AI

1.0.0

Unduh

Frasa berbasis-translasi

Repositori ini terdiri dari proyek yang dilakukan sebagai bagian dari kursus pemrosesan bahasa alami - Lanjutan, Musim Semi 2014. Kursus ini diinstruksikan oleh Dr. Dipti Misra Sharma, Dr. Ravi Jampani dan Mr. Akula Arjun Reddy

Laporan terperinci tersedia di sini

##Persyaratan

Python 2.6 atau lebih
Giza ++
Model Bahasa (IRSTLM)

## Masalah dalam proyek ini, model berbasis frasa diimplementasikan. Model berbasis frasa adalah model sederhana untuk terjemahan mesin yang hanya didasarkan pada terjemahan leksikal, terjemahan frasa. Ini membutuhkan kamus yang memetakan frasa dari satu bahasa ke bahasa lain. Pertama -tama kita menemukan penyelarasan kata. Selanjutnya, menggunakan bi-text corpus kami melatih model dan menghitung probabilitas translasi. Seiring dengan probabilitas terjemahan kami menggunakan model bahasa untuk mencerminkan kelancaran dalam bahasa Inggris.

Folder sumber terdiri dari metode berikut:

### Fungsi Utama

preprocess.py
Modul ini membutuhkan input kumpulan bi-text dan jumlah kalimat. Ini mengembalikan pelatihan dan pengujian dataset bersama dengan pasangan kalimat.

Jalankan perintah berikut untuk membuat set acak x kalimat:

python preprocess.py Sourcecorpus targetCorpus numberOfsentencesFortraining

Ini akan menghasilkan empat file:
trainingsource.txt pelatihantarget.txt testingsource.txt testingTarget.txt
Trainingsource.txt, TrainingTarget.txt: berisi jumlah kalimat yang diberikan
Testingsource.txt, testingTarget.txt: berisi 5 kalimat uji yang kami gunakan nanti

Selanjutnya jalankan alat perataan kata, Giza ++ untuk mendapatkan keberpihakan.

Untuk menjalankan Giza ++, lakukan hal berikut:

./plain2snt.out trainingsource.txt pelatihantarget.txt
./Giza+ -s trainingsource.vcb -t trainingTarget.vcb -c trainingsource_trainingtarget.snt

Jika langkah sebelumnya memberikan kesalahan, maka lakukan:

./snt2cooc.out trainingsource.vcb pelatihanTarget.vcb trainingsource_trainingtarget.snt> cooc.cooc
./Giza+ -s trainingsource.vcb -t trainingtarget.vcb -c trainingsource_trainingtarget.snt -coocurrencefile cooc.cooc

Ini akan menghasilkan beberapa file. Kata keberpihakan hadir dalam file A3. Ulangi langkah ini dengan menukar pelatih trainingSource.txt dan pelatihanTarget.txt untuk mendapatkan ARTER AREGAN ARTER. Sumber Sourcealignment.txt dan TargetAlignment.txt menjadi dua file. Kemudian kami mendapatkan frasa sebagai berikut:

fraseExtraction.py
Fungsi ini membaca dua file yang dihasilkan oleh Giza ++ yang berisi penyelarasan sumber ke target dan target ke sumber dan mengembalikan semua frasa yang mungkin terkait dengannya. Jalankan perintah berikut untuk mendapatkan frasa:

Python PhraseEexTraction.py Sourcealignment.txt targetalignment.txt
Frasa dihasilkan dalam frase file.txt. Selanjutnya kami menghitung probabilitas terjemahan.

findtranslationprobability.py
Setelah memperoleh frasa yang konsisten dari algoritma ekstraksi frasa, kami selanjutnya pindah untuk menemukan translationprobability. Ini dilakukan dengan menghitung kejadian relatif dari frasa target untuk frasa sumber yang diberikan untuk kedua arah

Jalankan perintah berikut:

python findtranslationprobability.py frase.txt
Ini akan menghasilkan dua file:
TranslationProbabilitySourceGiventarget.txt
TranslationProbabilityTargetGivensource.txt

languageModelInput.py
Ini membantu dalam memformat file input ke model bahasa. Ini menghilangkan semua karakter khusus. Untuk menjalankan ini, kami melakukan hal berikut:

python languagemodelinput.py trainsource.txt trains.txt
python languagemodelinput.py traintarget.txt traint.txt

Buat file zip untuk ini yang sekarang dimasukkan untuk model bahasa. Dijalankan sebagai berikut:

./ngt -i = "Gunzip -C Trains.gz" -n = 3 -o = train.www -b = Ya
./tlm -tr = train.www -n = 3 -lm = wb -o = trains.lm
./ngt -i = "gunzip -c traint.gz" -n = 3 -o = train.www -b = ya
./tlm -tr = train.www -n = 3 -lm = wb -o = traint.lm

finalscore.py

Setelah mendapatkan translationProbability dari matriks penyelarasan, ia menggabungkan probabilitas terjemahan dari model bahasa dan mengembalikan findtranslationProbability.

Jalankan perintah Follwowing untuk kedua arah:
python finalscore.py translationprobabilitytargetgivensource.txt trainsource.lm finaltranslationprobabilitytargetgivensource.txt
python finalscore.py translationprobabilitysourceGiventarget.txt traintarget.lm finalTranslationProbabilitySourceGiventarget.txt

Itu mengembalikan probabilitas terjemahan akhir file

stackdecoding.py
Setelah kami memperoleh probabilit tranlasi akhir, kami memperoleh terjemahan frasa terbaik. Fungsi ini memberikan terjemahan untuk kalimat yang diberikan berdasarkan rekombinan hipotesis. Jalankan perintah berikut:

python finalscore.py finalTranslationProbabilityTargetgivensource.txt testingTarget.txt
python finalscore.py finalTranslationProbabilitySourceGiventarget.txt testingsource.txt

Fungsi helper ###:

Alignment.py
Ini adalah fungsi pembantu yang menghasilkan kata matriks penyelarasan untuk sepasang kalimat.

Analisis kesalahan ###
Metode errorAnalysis.py mengambil input dalam format yang sangat spesifik. Mengingat kalimat sumber, kalimat yang diterjemahkan dan terjemahan aktual yang dipisahkan oleh newline, ia mengembalikan ketepatan dan penarikan kembali untuk file input di evalution.txt

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-09-10
ukuran 9.27KB
Berasal dari Github

Aplikasi Terkait

GitHub sgrebnov/cordova plugin background download

2024-11-05
Enhanced Blockchain Based Decentralized Public Auditing for Cloud Storage

2024-11-04
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Retrieval based Voice Conversion WebUI

2024-11-01
memodelkan perangkat lunak penghitungan defisit oksigen kritis

2024-07-29

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua