Téléchargement Phrase Based Model - Téléchargement du code source Phrase Based Model

Phrase Based Model

Code Source AI

1.0.0

Télécharger

Translation basée sur des phrases

Ce référentiel est constitué d'un projet réalisé dans le cadre du cours Natural Language Processing - Advanced, printemps 2014.Le cours a été instruit par le Dr Dipti Misra Sharma, le Dr Ravi Jampani et M. Akula Arjun Reddy

Un rapport détaillé est disponible ici

##Exigences

Python 2.6 ou plus
Giza ++
Modèle de langue (IRSTLM)

## Problème Dans ce projet, le modèle basé sur des phrases est implémenté. Un modèle basé sur des phrases est un modèle simple pour la traduction machine qui est basé uniquement sur la traduction lexicale, la traduction des phrases. Cela nécessite un dictionnaire qui mappe des phrases d'une langue à une autre. Nous trouvons d'abord l'alignement du mot. Ensuite, en utilisant le corpus Bi-Text, nous formons le modèle et calculons la probabilité de translation. Parallèlement aux probabilités de traduction, nous utilisons le modèle de langue pour refléter la maîtrise de l'anglais.

Le dossier source se compose des méthodes suivantes:

### Fonctions principales

préprocess.py
Ce module prend en entrée les corpus de texte bi-texé et le nombre de phrases. Il renvoie l'ensemble de données de formation et de test avec les paires de phrases.

Exécutez la commande suivante pour créer un ensemble aléatoire de phrases x:

Python Preprocess.py SourceCorpus TargetCorpus Numéro de sentences

Il générera quatre fichiers:
TRACHINGSOURCE.TXT TRACINETTARGET.TXT TESTINGSOURCE.TXT TESTSTARGET.TXT
Trainingsource.txt, TrainingTarget.txt: contient le nombre donné de phrases
Testingsource.txt, testTarget.txt: contient 5 phrases de test que nous utilisons plus tard

Exécutez ensuite l'outil d'alignement du mot, Giza ++ pour obtenir les alignements.

Afin d'exécuter Giza ++, faites ce qui suit:

./Plain2snt.out TRACHINGSOURCE.TXT TRAININGTARGET.TXT
./Giza++ -s TRAPALINGSOURCE.VCB -T TRAPINGTARGET.VCB -C TRACLINGSOURCE_TRAINTTAGETTERGE.SNT

Si l'étape précédente donne une erreur, faites: faites:

./Snt2Cooc.out Trainingsource.vcb TrainingTarget.VCB TRACLINGSOURCE_TRAINTATTARGET.SNT> COOC.COOC
./Giza++ -s TRACLINGSOURCE.VCB -T TRAPINGTARGET.VCB -C TRAPALINGSOURCE_TRAINTTARGET.SNT -COOCURRENCEFILE COOC.COOC

Cela générera plusieurs fichiers. Les alignements du mot sont présents dans le fichier A3. Répétez cette étape en échangeant le formingource.txt et TrainingTarget.txt pour obtenir l'autre alignement de direction. Ensuite, nous obtenons les phrases comme suit:

phraseExtraction.py
Cette fonction lit deux fichiers générés par Giza ++ contenant l'alignement de la source pour cibler et cibler la source et renvoie toutes les phrases possibles qui y sont associées. Exécutez la commande suivante pour obtenir les phrases:

python phraseextraction.py Sourcedignment.txt TargetAlignment.txt
Les phrases sont générées dans le fichier phrases.txt. Ensuite, nous calculons la probabilité de traduction.

findTranslationProbability.py
Après avoir obtenu les phrases cohérentes à partir de l'algorithme d'extraction de phrase, nous nous déplacons ensuite pour trouver la traduction de la traduction. Cela se fait en calculant les occurrences relatives de la phrase cible pour une phrase source donnée pour les deux directions

Exécutez la commande suivante:

Python findTranslationProbability.py phrases.txt
Il générera deux fichiers:
traduction ProbabilitySourceGiventarget.txt
traductionProbabilityTargetGivensource.txt

LanguageModeLinput.py
Cela aide à formater le fichier d'entrée dans le modèle de langue. Il supprime tous les caractères spéciaux. Afin d'exécuter ceci, nous faisons ce qui suit:

Python LanguageModeLinput.Py Trainsource.txt Trains.txt
Python LanguageModeLinput.py Traintarget.txt Traint.txt

Créez le fichier zip pour cela qui est désormais entré pour le modèle de langue. Il est exécuté comme suit:

./ngt -i = "gunzip -c trains.gz" -n = 3 -o = train.www -b = oui
./tlm -tr = train.www -n = 3 -lm = wb -o = trains.lm
./ngt -i = "gunzip -c trains.gz" -n = 3 -o = train.www -b = oui
./tlm -tr = Train.www -n = 3 -lm = wb -o = trains.lm

finalscore.py

Après avoir obtenu la production de la traduction à partir de la matrice d'alignement, il combine la probabilité de traduction du modèle de langue et renvoie la Probabilisation de FindTranslation.

Exécutez la commande Follwowing pour les deux directions:
python finalscore.py traductionProBabilityTargetGivensource.txt Trainsource.lm finalTranslationProbabilityTargetgiVensource.txt
python finalscore.py traductionProbabilitySourceGiventarget.txt Traintarget.lm finalTranslationProbabilitySourceGiventarget.txt

Il renvoie les probabilités de traduction finale du fichier

stackdecoding.py
Une fois que nous avons obtenu les probabilites de transsexation finales, nous obtenons la meilleure traduction de phrase. Cette fonction donne la traduction d'une phrase donnée basée sur la recombiniation des hypothèses. Exécutez la commande suivante:

Python finalscore.py finalTranslationProbabilityTargetGivensource.txt TestingTarget.txt
Python finalscore.py finalTranslationProbabilitySourceGiventarget.txt Testingsource.txt

Fonction d'assistance ###:

alignment.py
Il s'agit d'une fonction d'assistance qui génère la matrice d'alignement du mot pour une paire de phrases.

### Analyse des erreurs
La méthode ErorLanalysis.py prend en entrée dans un format très spécifique. Compte tenu de la phrase source, de la phrase traduite et de la traduction réelle séparée par Newline, il renvoie la précision et le rappel du fichier d'entrée dans Evaluation.txt

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-09-10
taille 9.27KB
Provenant de Github

Applications connexes

GitHub sgrebnov/cordova plugin background download

2024-11-05
Enhanced Blockchain Based Decentralized Public Auditing for Cloud Storage

2024-11-04
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Retrieval based Voice Conversion WebUI

2024-11-01
modèle de logiciel de calcul du déficit critique en oxygène

2024-07-29

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout