Téléchargement de wikipron - Téléchargement du code source wikipron

wikipron

Autre code source

v1.3.3

Télécharger

Wikipron

Wikipron est un outil de ligne de commande et une API Python pour l'exploitation des données de prononciation multilingue de Wiktionary, ainsi qu'une base de données de dictionnaires de prononciation exploitée à l'aide de cet outil.

Outil de ligne de commande
API Python
Données
Modèles
Développement

Si vous utilisez Wikipron dans vos recherches, veuillez citer ce qui suit:

Jackson L. Lee, Lucas Fe Ashby, M. Elizabeth Garza, Yeonju Lee-Sikka, Sean Miller, Alan Wong, Arya D. McCarthy et Kyle Gorman (2020). Exploitation de prononciation massivement multilingue avec Wikipron. Dans les actes de la 12e conférence sur les ressources linguistiques et l'évaluation , pages 4223-4228. [bibtex]

Outil de ligne de commande

Installation

pip install wikipron

Usage

Démarrage rapide

Après l'installation, le terminal Commande wikipron sera disponible. À titre d'exemple de base, la commande suivante gratte les données G2P pour le français:

wikipron fra

Spécification de la langue

La langue est indiquée par un code de langue ISO 639-3 à trois lettres, par exemple, fra pour le français. Pour quelles langues peuvent être grattées, voici la liste complète des langues sur Wiktionary qui ont des entrées de prononciation.

Spécification du dialecte

On peut éventuellement spécifier des dialectes à cibler à l'aide de l'indicateur --dialect . Le nom du dialecte peut être trouvé avec la transcription sur Wiktionary. Par exemple, "(UK, US) ipa: / təˈmːtəʊ /". Pour restreindre à l'union des dialectes, utilisez le caractère de tuyau '|': par exemple, --dialect='General American | US' . Les transcriptions qui manquent d'une spécification du dialecte sont sélectionnées quelle que soit la valeur de ce drapeau.

Spécification du niveau de transcription

Par défaut, Wikipron sélectionne des prononciations larges dans des supports inclinés / comme ceci /. On peut plutôt sélectionner des transcriptions étroites écrites [comme celle-ci] en utilisant l'indicateur --narrow . Notez que certaines langues n'ont que des transcriptions larges ou étroites (par exemple, le russe n'a que ce dernier.

Segmentation

Par défaut, la bibliothèque segments est utilisée pour segmenter la transcription dans l'espace blanc. La segmentation a tendance à placer les diacritiques et les modificateurs IPA sur le symbole "parent". Par exemple, [kʰæt] est rendu kʰ æ t . Cela peut être désactivé à l'aide de l'indicateur --no-segment .

Parenthèses

Certaines transcriptions contiennent des parenthèses pour indiquer des prononciations alternatives. Les parenthèses (mais pas le contenu) sont rejetées dans l'écrase à moins que le drapeau --no-skip-parens ne soit utilisé.

Sortir

Les données grattées sont organisées avec chaque paire <mot, prononciation> sur sa propre ligne, où le mot et la prononciation sont séparés par un onglet. Notez que la prononciation est dans l'alphabet phonétique international (IPA), segmenté par des espaces qui gèrent correctement la combinaison et les diacritiques du modificateur à des fins de modélisation, par exemple, nous avons kʰ æ t avec le k aspiré au lieu de k ʰ æ t .

Pour l'illustration, voici un extrait de données françaises grattées par Wikipron:

 accrémentitielle    a k ʁ e m ɑ̃ t i t j ɛ l
accrescent  a k ʁ ɛ s ɑ̃
accrétion   a k ʁ e s j ɔ̃
accrétions  a k ʁ e s j ɔ̃

Par défaut, les données grattées apparaissent dans le terminal. Pour enregistrer les données dans un fichier TSV, veuillez rediriger la sortie standard vers un nom de fichier de votre choix:

wikipron fra > fra.tsv

Options avancées

La commande wikipron Terminal propose un tableau d'options pour configurer votre exécution de grattage. Pour une liste complète des options, veuillez exécuter wikipron -h .

API Python

Le module sous-jacent peut également être utilisé à partir de Python. Un workflow standard ressemble:

 import wikipron

config = wikipron . Config ( key = "fra" )  # French, with default options.
for word , pron in wikipron . scrape ( config ):
    ...

Données

Nous mettons également à disposition une base de données de plus de 3 millions de paires de mots / prononciations extraites à l'aide de Wikipron.

Modèles

Nous hébergeons des modèles graphème-phonèques et des logiciels de modélisation dans un référentiel séparé.

Développement

Dépôt

Le code source de Wikipron est hébergé sur GitHub à https://github.com/CUNY-CL/wikipron , où le développement se produit également.

Pour les dernières modifications non encore publiées via pip ou travaillant sur la base de code vous-même, vous pouvez obtenir le dernier code source via GitHub et git :

Créez une fourche du Repo wikipron sur votre compte GitHub.
Localement, assurez-vous que vous êtes dans une sorte d'environnement virtuel (VENV, VirtualEnv, Conda, etc.).

Téléchargez et installez la bibliothèque dans le mode "modifiable" ainsi que les dépendances du noyau et des développeurs dans l'environnement virtuel:

git clone https://github.com/ < your-github-username > /wikipron.git
cd wikipron
pip install -U pip setuptools
pip install -r requirements.txt
pip install --no-deps -e .

Nous gardons une trace des changements notables dans CHANGELOG.md .

Contributif

Pour les questions, les rapports de bogues et les demandes de fonctionnalités, veuillez déposer un problème.

Si vous souhaitez contribuer à la base de code wikipron , veuillez consulter contribution.md.

Licence

Wikipron est libéré sous une licence Apache 2.0. Veuillez consulter Licence.txt pour plus de détails.

Veuillez noter que les données Wiktionary dans les data/ répertoires ont ses propres conditions de licence.

Développer

Informations supplémentaires

Version v1.3.3
Type Autre code source
Date de mise à jour 2025-04-16
taille 36.51MB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout