Phrase Based Model下載 - Phrase Based Model源代碼下載

Phrase Based Model

Ai源碼

1.0.0

下載

基於短語的翻譯

該存儲庫由作為課程自然語言處理的項目組成 - 2014年春季。課程由Dipti Misra Sharma博士，Ravi Jampani博士和Akula Arjun Arjun Arjun Reddy先生指示。

這裡有詳細的報告

＃＃要求

Python 2.6或更高
Giza ++
語言模型（IRSTLM）

##問題中的問題，實現了基於短語的模型。基於短語的模型是一個簡單的機器翻譯模型，僅基於詞彙翻譯，即短語的翻譯。這需要一個詞典將短語從一種語言映射到另一種語言。我們首先找到單詞的一致性。接下來，使用雙文本語料庫，我們訓練模型併計算翻譯概率。除了翻譯概率外，我們使用語言模型來反映英語的流利度。

源文件夾由以下方法組成：

###主要功能

preprocess.py
該模塊將BI-TEXT庫庫和句子數作為輸入。它返回培訓和測試數據集以及句子對。

運行以下命令創建隨機的X句子：

python preprocess.py sourcecorpus targetcorpus numberSentences fortraining

它將生成四個文件：
Trainingsource.txt tribent.target.txt testingsource.txt testingtarget.txt
Trainingsource.txt，Trainingtarget.txt：包含給定數量的句子
testingsource.txt，testingtarget.txt：包含5個測試句子，我們以後使用

接下來，運行單詞對齊工具Giza ++以獲得對齊。

為了運行Giza ++，請執行以下操作：

./plain2snt.out Trainingsource.txt Trainingtarget.txt
./giza++ -s tribingsource.vcb -t tribenttarget.vcb -c trainingsource_trainingtarget.snt

如果上一步給出了錯誤，請執行：

./snt2cooc.out tribingsource.vcb triagntarget.vcb trieningsource_trainingtarget.snn> cooc.cooc.cooc.cooc.cooc.cooc.cooc
./giza+ -s trainingsource.vcb -t triagntarget.vcb -c trainingsource_trainingtarget.snt -oocurrencefile cooc.cooc.cooc.cooc.cooc

這將生成幾個文件。 A3文件中存在單詞對齊。重複此步驟，通過交換trainingsource.txt和triaghtarget.txt以獲取另一個方向對齊。 letsourcealignment.txt和targetAlignment.txt是兩個文件。然後，我們獲得如下的短語：

phraseextraction.py
此功能讀取由Giza ++生成的兩個文件，其中包含源與目標和目標的對齊，以源和返回與之關聯的所有可能的短語。運行以下命令以獲取短語：

python phraseextraction.py sourcealignment.txt targetAlignment.txt
這些短語是在文件短語中生成的。接下來，我們計算翻譯概率。

find translationprobability.py
在從短語提取算法中獲得一致的短語後，我們接下來的舉動以找到翻譯性能。這是通過計算給定源短語的兩個方向的目標短語的相對出現來完成的

運行以下命令：

python find translationprobability.py phrases.txt
它將生成兩個文件：
TranslationProbiabilitySourceGiventArget.txt
TranslationProbiabilityTargetGivenSource.txt

languagemodelinput.py
這有助於將輸入文件格式化為語言模型。它刪除了所有特殊字符。為了運行此操作，我們執行以下操作：

python languagemodelinput.py trainsource.txt trains.txt
python languagemodelinput.py traintarget.txt traint.txt

為此創建ZIP文件，該文件現在已成為語言模型的輸入。運行如下：

./ngt -i =“ gunzip -c trains.gz” -n = 3 -o = train.www -b = yes
./tlm -tr = train.www -n = 3 -lm = wb -o = trains.lm
./ngt -i =“ gunzip -c traint.gz” -n = 3 -o = train.www -b = yes
./tlm -tr = train.www -n = 3 -lm = wb -o = traint.lm

finalscore.py

從對齊矩陣中獲得翻譯可探針後，它結合了語言模型的翻譯概率並返回FindTranslationProbise。

運行兩個方向的follwowwow命令：
python finalscore.py translation probibilityTargetGivenSource.txt trainsource.lm finaltranslationprobibalitytargetgivensource.txt
python finalscore.py translationprobiablesosourcegiventarget.txt traintarget.lm finaltranslationprobabilitysourcegiventarget.txt

它返回文件最終翻譯概率

stackdecoding.py
一旦獲得了最終的跨度概率，我們就會獲得最佳的短語翻譯。此函數為基於假設重組的給定句子提供了翻譯。運行以下命令：

python finalscore.py finaltranslationprobibilitytargetGivenSource.txt testingtarget.txt
python fenalscore.py finaltranslationprobibalizationsourcegiventarget.txt testingSource.txt

###輔助功能：