ngramModelTrainer Téléchargement - ngramModelTrainer CODE Téléchargement

ngramModelTrainer

Code Source AI

1.0.0

Télécharger

ngrammodeltrainer

Apprend un modèle de langue n-gram étant donné un corpus. Le corpus doit être un fichier texte, avec un seul mot par ligne, ne contenant aucun espace inter-mots.

Les quantités apprises sont:

Probabilités d'unigrammes, P (G _I )
Probabilités de Bigrams, P (G _I | G _I-1 )
Probabilités des trigrammes, P (G _I | G _I-1 , G _I-2 )

Tests et course

Testez le script en exécutant sans argument:

 python3 ngramModelTrainer

Utilisez l'indicateur -H pour plus de détails sur la façon d'utiliser l'outil avec une entrée appropriée:

 python3 ngramModelTrainer -h

Il y a quelques exemples d'entrées sur fixtures/ .

La sortie est enregistrée en quatre matrices MATLAB.

UniGrams: u (i) signifie p (i).
Bigrams: B (i, j) signifie p (j | i).
Trigrams: t (i, j, k) représente p (k | j, i).
Quadgrams (tétragrams): Q (i, j, k, l) représente P (l | k, j, i).

Alphabet

Un alphabet d'unigrammes spécifiques acceptables doit être défini. Par défaut, nous utilisons un alphabet de 36 lettres / chiffres possibles. Ceux-ci sont conservés dans une liste Python appelée «Alphabet», dans l'ordre suivant:

Positions 0-25: LETTRES ALPHABETS MINOLES LATINES, dans l'ordre alphabétique standard.
Positions 26-35: chiffres 0-9.

Alphabets "alternatifs"

Les versions non standard de l'alphabet ci-dessus peuvent être utilisées. Ceux-ci incluent: Dutta_extended : un certain nombre de caractères supplémentaires (ce sont notamment des encodages des personnages et la ponctuation trouvés dans l'ensemble de documents manuscrits George Washington). Sophia : personnages grecs polytoniques. Dummy : un ensemble de tests limité de 3 caractères

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-09-09
taille 4.89MB
Provenant de Github

Applications connexes

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout