Phrase Based Model下载 - Phrase Based Model源代码下载

Phrase Based Model

Ai源码

1.0.0

下载

基于短语的翻译

该存储库由作为课程自然语言处理的项目组成 - 2014年春季。课程由Dipti Misra Sharma博士，Ravi Jampani博士和Akula Arjun Arjun Arjun Reddy先生指示。

这里有详细的报告

＃＃要求

Python 2.6或更高
Giza ++
语言模型（IRSTLM）

##问题中的问题，实现了基于短语的模型。基于短语的模型是一个简单的机器翻译模型，仅基于词汇翻译，即短语的翻译。这需要一个词典将短语从一种语言映射到另一种语言。我们首先找到单词的一致性。接下来，使用双文本语料库，我们训练模型并计算翻译概率。除了翻译概率外，我们使用语言模型来反映英语的流利度。

源文件夹由以下方法组成：

###主要功能

preprocess.py
该模块将BI-TEXT库库和句子数作为输入。它返回培训和测试数据集以及句子对。

运行以下命令创建随机的X句子：

python preprocess.py sourcecorpus targetcorpus numberSentences fortraining

它将生成四个文件：
Trainingsource.txt tribent.target.txt testingsource.txt testingtarget.txt
Trainingsource.txt，Trainingtarget.txt：包含给定数量的句子
testingsource.txt，testingtarget.txt：包含5个测试句子，我们以后使用

接下来，运行单词对齐工具Giza ++以获得对齐。

为了运行Giza ++，请执行以下操作：

./plain2snt.out trainingSource.txt trainingTarget.txt
./giza++ -s tribingsource.vcb -t tribenttarget.vcb -c trainingsource_trainingtarget.snt

如果上一步给出了错误，请执行：

./snt2cooc.out tribingsource.vcb triagntarget.vcb trieningsource_trainingtarget.snn> cooc.cooc.cooc.cooc.cooc.cooc.cooc
./giza+ -s trainingsource.vcb -t triagntarget.vcb -c trainingsource_trainingtarget.snt -oocurrencefile cooc.cooc.cooc.cooc.cooc

这将生成几个文件。 A3文件中存在单词对齐。重复此步骤，通过交换trainingsource.txt和triaghtarget.txt以获取另一个方向对齐。letsourcealignment.txt和targetAlignment.txt是两个文件。然后，我们获得如下的短语：

phraseextraction.py
此功能读取由Giza ++生成的两个文件，其中包含源与目标和目标的对齐，以源和返回与之关联的所有可能的短语。运行以下命令以获取短语：

python phraseextraction.py sourcealignment.txt targetAlignment.txt
这些短语是在文件短语中生成的。接下来，我们计算翻译概率。

find translationprobability.py
在从短语提取算法中获得一致的短语后，我们接下来的举动以找到翻译性能。这是通过计算给定源短语的两个方向的目标短语的相对出现来完成的

运行以下命令：

python find translationprobability.py phrases.txt
它将生成两个文件：
TranslationProbiabilitySourceGiventArget.txt
TranslationProbiabilityTargetGivenSource.txt

languagemodelinput.py
这有助于将输入文件格式化为语言模型。它删除了所有特殊字符。为了运行此操作，我们执行以下操作：

python languagemodelinput.py trainsource.txt trains.txt
python languagemodelinput.py traintarget.txt traint.txt

为此创建ZIP文件，该文件现在已成为语言模型的输入。运行如下：

./ngt -i =“ gunzip -c trains.gz” -n = 3 -o = train.www -b = yes
./tlm -tr = train.www -n = 3 -lm = wb -o = trains.lm
./ngt -i =“ gunzip -c traint.gz” -n = 3 -o = train.www -b = yes
./tlm -tr = train.www -n = 3 -lm = wb -o = traint.lm

finalscore.py

从对齐矩阵中获得翻译可探针后，它结合了语言模型的翻译概率并返回FindTranslationProbise。

运行两个方向的follwowwow命令：
python finalscore.py translation probibilityTargetGivenSource.txt trainsource.lm finaltranslationprobibalitytargetgivensource.txt
python finalscore.py translationprobiablesosourcegiventarget.txt traintarget.lm finaltranslationprobabilitysourcegiventarget.txt

它返回文件最终翻译概率

stackdecoding.py
一旦获得了最终的跨度概率，我们就会获得最佳的短语翻译。此函数为基于假设重组的给定句子提供了翻译。运行以下命令：

python finalscore.py finaltranslationprobibilitytargetGivenSource.txt testingtarget.txt
python fenalscore.py finaltranslationprobibalizationsourcegiventarget.txt testingSource.txt

###辅助功能：