Descarga Phrase Based Model - Descargar el código fuente Phrase Based Model

Phrase Based Model

Código Fuente de IA

1.0.0

Descargar

Traducción a base de frase

Este repositorio consiste en el proyecto realizado como parte del curso de procesamiento del lenguaje natural del curso - Avanzado, primavera de 2014. El curso fue instruido por el Dr. Dipti Misra Sharma, el Dr. Ravi Jampani y el Sr. Akula Arjun Reddy

Un informe detallado está disponible aquí

## Requisitos

Python 2.6 o superior
Giza ++
Modelo de idioma (irstlm)

## Problema En este proyecto, se implementa el modelo basado en frases. Un modelo basado en frases es un modelo simple para la traducción automática que se basa únicamente en la traducción léxica, la traducción de frases. Esto requiere un diccionario que mapea frases de un idioma a otro. Primero encontramos la alineación de la palabra. A continuación, utilizando el corpus de bi-text, entrenamos el modelo y calculamos la probabilidad de traducción. Junto con las probabilidades de traducción, utilizamos el modelo de idioma para reflejar la fluidez en el inglés.

La carpeta de origen consta de los siguientes métodos:

### Funciones principales

preprocess.py
Este módulo toma como entrada los corpus de bi-texto y el número de oraciones. Devuelve el conjunto de datos de capacitación y prueba junto con los pares de oraciones.

Ejecute el siguiente comando para crear un conjunto aleatorio de x oraciones:

Python preprocess.py SourceCorpus TargetCorpus Número de Instalación

Generará cuatro archivos:
TrainingSource.txt TrainingTarget.txt testingSource.txt testTarget.txt
TrainingSource.txt, TrainingTarget.txt: contiene el número dado de oraciones
testingSource.txt, testTarget.txt: contiene 5 oraciones de prueba que usamos más adelante

Luego ejecute la herramienta de alineación de palabras, GIZA ++ para obtener las alineaciones.

Para ejecutar GIZA ++, haga lo siguiente:

./plain2snt.out entrenadoreurce.txt entrenador de thorget.txt
./Giza++ -s entrenamiento.vcb -t entrenador deTarget.vcb -c entrenamientource_trainingTarget.snt

Si el paso anterior da error, entonces hagas:

./snt2cooc.out entrenadoreurce.vcb entrenadorTarget.vcb TrainingingSource_trainingTarget.snt> cooc.cooc
./Giza++ -S entrenamiento.vcb -t entrenadorTarget.vcb -c entrenamientource_trainingTarget.snt -coocurrenceFile cooC.cooc

Esto generará varios archivos. Las alineaciones de palabras están presentes en el archivo A3. Repita este paso intercambiando el entrenamientource.txt y el entrenamiento Target. Luego obtenemos las frases de la siguiente manera:

fraseExtraction.py
Esta función lee dos archivos generados por GIZA ++ que contiene la alineación de la fuente a la orientación y el objetivo a la fuente y devuelve todas las frases posibles asociadas con ella. Ejecute el siguiente comando para obtener las frases:

python fraseExtraction.py SourceLignment.txt TargetAlignment.txt
Las frases se generan en el archivo frases.txt. A continuación calculamos la probabilidad de traducción.

findTranslationProbability.py
Después de obtener las frases consistentes del algoritmo de extracción de frases, luego nos movemos para encontrar la probabilidad de traducción. Esto se hace calculando las ocurrencias relativas de la frase objetivo para una frase fuente dada para ambas direcciones

Ejecute el siguiente comando:

Python FindTranslationProbability.py frases.txt
Generará dos archivos:
TradationProbabilitySourCeGivenTarget.txt
TradationProbabilityTargetGivenSource.txt

languageModelInput.py
Esto ayuda a formatear el archivo de entrada al modelo de idioma. Elimina todos los personajes especiales. Para ejecutar esto, hacemos lo siguiente:

Python languageModelinput.py TrainSource.txt Trains.txt
Python languageModelinput.py Traenderget.txt Traint.txt

Cree el archivo ZIP para esto que ahora se ingresa para el modelo de idioma. Se ejecuta de la siguiente manera:

./ngt -i = "gunzip -c trenes.gz" -n = 3 -o = Train.www -b = Sí
./tlm -Tr = Train.www -n = 3 -lm = wb -o = trenes.lm
./ngt -i = "Gunzip -c Traint.gz" -n = 3 -o = Train.www -B = Sí
./tlm -Tr = Train.www -n = 3 -lm = wb -o = Traint.lm

finalscore.py

Después de obtener la probabilidad de traducción de la matriz de alineación, combina la probabilidad de traducción del modelo de idioma y devuelve la probabilidad FindTranslation.

Ejecute el comando Follwowing para ambas direcciones:
Python final Finalscore.py TradationProbabilityTargetGivenSource.txt TrainSource.lm FinalTranslationProbabilityTargetGivenseurce.txt
python final finalscore.py tradationProbabilitySourCeGiventarget.txt Trainarget.lm finalTranslationProbabilitySourCeGivENtarget.txt

Devuelve las probabilidades de traducción final del archivo

stackdecoding.py
Una vez que obtenemos los probabilites de transmisión final, obtenemos la mejor traducción de frases. Esta función proporciona la traducción para una oración dada basada en la recombiniación de hipótesis. Ejecute el siguiente comando:

python final -finalcore.py finalTranslationProbabilityTargetGivenSource.txt testingTarget.txt
Python final de finalización.py finalTranslationProbabilitySourCeGivENtarget.txt testingSource.txt

### Función auxiliar:

alineación.py
Esta es una función de ayuda que genera la matriz de alineación de palabras para un par de oraciones.

### Análisis de errores
El método Erroranalysis.py toma como entrada en un formato muy específico. Dada la oración de origen, la oración traducida y la traducción real separada por Newline, devuelve la precisión y el recuerdo del archivo de entrada en Evalution.txt

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-10
tamaño 9.27KB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Enhanced Blockchain Based Decentralized Public Auditing for Cloud Storage

2024-11-04
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Retrieval based Voice Conversion WebUI

2024-11-01
software de cálculo del déficit crítico de oxígeno del modelo

2024-07-29

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo