Téléchargement word_forms - word_forms Téléchargement du code source

word_forms

Autre code source

v2.1.0: Lemmatizer added, performance improved, dependencies updated

Télécharger

Logo des formulaires de mots

Générez avec précision toutes les formes possibles d'un mot anglais

Les formes de mots peuvent générer avec précision toutes les formes possibles d'un mot anglais. Il peut conjuguer les verbes. Il peut connecter différentes parties des discours, par exemple, un nom à l'adjectif, l'adjectif à l'adverbe, le nom à verbe, etc. Il peut puraliser les noms singuliers. Il fait tout cela dans une fonction. Apprécier!

Exemples

Quelques exemples très opportuns: P

 > >> from word_forms . word_forms import get_word_forms
> >> get_word_forms ( "president" )
> >> { 'n' : { 'presidents' , 'presidentships' , 'presidencies' , 'presidentship' , 'president' , 'presidency' },
     'a' : { 'presidential' },
     'v' : { 'preside' , 'presided' , 'presiding' , 'presides' },
     'r' : { 'presidentially' }}
> >> get_word_forms ( "elect" )
> >> { 'n' : { 'elects' , 'electives' , 'electors' , 'elect' , 'eligibilities' , 'electorates' , 'eligibility' , 'elector' , 'election' , 'elections' , 'electorate' , 'elective' },
     'a' : { 'eligible' , 'electoral' , 'elective' , 'elect' },
     'v' : { 'electing' , 'elects' , 'elected' , 'elect' },
     'r' : set ()}
> >> get_word_forms ( "politician" )
> >> { 'n' : { 'politician' , 'politics' , 'politicians' },
     'a' : { 'political' },
     'v' : set (),
     'r' : { 'politically' }}
> >> get_word_forms ( "am" )
> >> { 'n' : { 'being' , 'beings' },
     'a' : set (),
     'v' : { 'was' , 'be' , "weren't" , 'am' , "wasn't" , "aren't" , 'being' , 'were' , 'is' , "isn't" , 'been' , 'are' , 'am not' },
     'r' : set ()}
> >> get_word_forms ( "ran" )
> >> { 'n' : { 'run' , 'runniness' , 'runner' , 'runninesses' , 'running' , 'runners' , 'runnings' , 'runs' },
     'a' : { 'running' , 'runny' },
     'v' : { 'running' , 'run' , 'ran' , 'runs' },
     'r' : set ()}
> >> get_word_forms ( 'continent' , 0.8 ) # with configurable similarity threshold
> >> { 'n' : { 'continents' , 'continency' , 'continences' , 'continent' , 'continencies' , 'continence' },
     'a' : { 'continental' , 'continent' },
     'v' : set (),
     'r' : set ()}

Comme vous pouvez le voir, la sortie est un dictionnaire avec quatre clés. "R" signifie adverbe, "A" pour l'adjectif, "n" pour nom et "v" pour le verbe. Ne me demandez pas pourquoi "R" signifie Adverbe. C'est ce que WordNet utilise, donc c'est pourquoi je l'utilise aussi :-)

L'aide peut être obtenue à tout moment en tapant ce qui suit:

 > >> help ( get_word_forms )

Pourquoi?

Dans le traitement et la recherche du langage naturel, il faut souvent traiter des mots comme "courir" et "diriger", "amour" et "adorable" ou "politicien" et "politique" comme le même mot. Cela se fait généralement en réduisant algorithmiquement chaque mot en un mot de base, puis en comparant les mots de base. Le processus est appelé engendré. Par exemple, le Porter STEMMER réduit à la fois "Love" et "Lovely" dans le mot de base "Love".

Les tigers ont plusieurs lacunes. Premièrement, le mot de base produit par le STEMMER n'est pas toujours un mot anglais valide. Par exemple, le Porter STEMMER réduit le mot «opération» en «opération». Deuxièmement, les tigers ont un taux de faux négatif élevé élevé. Par exemple, "Run" est réduit à "Run" et "Ran" est réduit à "Ran". Cela se produit parce que les tigers utilisent un ensemble de règles rationnelles pour trouver les mots de base, et comme nous le savons tous, la langue anglaise ne se comporte pas toujours de manière rationnelle.

Les lemmatieurs sont plus précis que les tigers car ils produisent une forme de base présente dans le dictionnaire (également appelé lemme). Le mot réduit est donc toujours un mot anglais valide. Cependant, les lemmatieurs ont également de faux négatifs car ils ne sont pas très bons pour connecter des mots dans différentes parties des discours. Le lemmatizer WordNet inclus avec NLTK échoue à presque tous ces exemples. Les «opérations» sont réduites à «l'opération» et «opérer» sont réduites à «opérer».

Les formes de mots essaient de résoudre ce problème en trouvant toutes les formes possibles d'un mot anglais donné. Il peut effectuer des conjugaisons verbales, connecter les formulaires noms aux formes verbales, les formes adjectives, les formes d'adverbes, les formes singulières en pratigne, etc.

Bonus: un simple lemmatizer

Nous proposons également un lemmatizer très simple basé sur word_forms . Voici comment l'utiliser.

 > >> from word_forms . lemmatizer import lemmatize
> >> lemmatize ( "operations" )
'operant'
> >> lemmatize ( "operate" )
'operant'

Apprécier!

Compatibilité

Testé sur Python 3

Installation

Utilisation de pip :

 pip install -U word_forms

De la source

Ou vous pouvez l'installer à partir de la source:

Clone le référentiel:

 git clone https://github.com/gutfeeling/word_forms.git

L'installez à l'aide de pip ou setup.py

 pip install -e word_forms
% or
cd word_forms
python setup.py install

Reconnaissance

Le projet XTAG pour des informations sur les conjugaisons verbales.
WordNet

Maintienneur

Salut, je suis Dibya et je maintiens ce référentiel. J'adorerais avoir de vos nouvelles. N'hésitez pas à me contacter à [email protected].

Contributeurs

Tom Aarsen @cubiedev est un contributeur majeur et est à lui seul responsable de la v2.0.0.
Sajal sharma @ sajal2692 est un contributeur majeur.
Pamphile Roy @tupui est responsable du package PYPI.

Contributions

Les formes de mots ne sont pas parfaites. En particulier, quelques aspects peuvent être améliorés.

Il génère parfois des mots non dictionnaires comme les «couleurs» car l'algorithme de pluralisation / singularisation n'est pas parfait. Pour le moment, j'utilise Inflect pour cela.

Si vous aimez ce package, n'hésitez pas à contribuer. Vos demandes de traction sont les bienvenues.

Développer

Informations supplémentaires

Version v2.1.0: Lemmatizer added, performance improved, dependencies updated
Type Autre code source
Date de mise à jour 2025-04-19
taille 683.47KB
Provenant de Github

Applications connexes

Mot Planète

2024-11-08
Connexion de mots

2024-11-08
Charmeur de mots

2024-11-08
Document Word Logiciel d'édition en ligne Qingxia Word

2023-11-27
Viandes de mots

2023-11-09
Document Word de Weizhong

2023-04-12

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout