Wikipron est un outil de ligne de commande et une API Python pour l'exploitation des données de prononciation multilingue de Wiktionary, ainsi qu'une base de données de dictionnaires de prononciation exploitée à l'aide de cet outil.
Si vous utilisez Wikipron dans vos recherches, veuillez citer ce qui suit:
Jackson L. Lee, Lucas Fe Ashby, M. Elizabeth Garza, Yeonju Lee-Sikka, Sean Miller, Alan Wong, Arya D. McCarthy et Kyle Gorman (2020). Exploitation de prononciation massivement multilingue avec Wikipron. Dans les actes de la 12e conférence sur les ressources linguistiques et l'évaluation , pages 4223-4228. [bibtex]
pip install wikipron Après l'installation, le terminal Commande wikipron sera disponible. À titre d'exemple de base, la commande suivante gratte les données G2P pour le français:
wikipron fra La langue est indiquée par un code de langue ISO 639-3 à trois lettres, par exemple, fra pour le français. Pour quelles langues peuvent être grattées, voici la liste complète des langues sur Wiktionary qui ont des entrées de prononciation.
On peut éventuellement spécifier des dialectes à cibler à l'aide de l'indicateur --dialect . Le nom du dialecte peut être trouvé avec la transcription sur Wiktionary. Par exemple, "(UK, US) ipa: / təˈmːtəʊ /". Pour restreindre à l'union des dialectes, utilisez le caractère de tuyau '|': par exemple, --dialect='General American | US' . Les transcriptions qui manquent d'une spécification du dialecte sont sélectionnées quelle que soit la valeur de ce drapeau.
Par défaut, Wikipron sélectionne des prononciations larges dans des supports inclinés / comme ceci /. On peut plutôt sélectionner des transcriptions étroites écrites [comme celle-ci] en utilisant l'indicateur --narrow . Notez que certaines langues n'ont que des transcriptions larges ou étroites (par exemple, le russe n'a que ce dernier.
Par défaut, la bibliothèque segments est utilisée pour segmenter la transcription dans l'espace blanc. La segmentation a tendance à placer les diacritiques et les modificateurs IPA sur le symbole "parent". Par exemple, [kʰæt] est rendu kʰ æ t . Cela peut être désactivé à l'aide de l'indicateur --no-segment .
Certaines transcriptions contiennent des parenthèses pour indiquer des prononciations alternatives. Les parenthèses (mais pas le contenu) sont rejetées dans l'écrase à moins que le drapeau --no-skip-parens ne soit utilisé.
Les données grattées sont organisées avec chaque paire <mot, prononciation> sur sa propre ligne, où le mot et la prononciation sont séparés par un onglet. Notez que la prononciation est dans l'alphabet phonétique international (IPA), segmenté par des espaces qui gèrent correctement la combinaison et les diacritiques du modificateur à des fins de modélisation, par exemple, nous avons kʰ æ t avec le k aspiré au lieu de k ʰ æ t .
Pour l'illustration, voici un extrait de données françaises grattées par Wikipron:
accrémentitielle a k ʁ e m ɑ̃ t i t j ɛ l
accrescent a k ʁ ɛ s ɑ̃
accrétion a k ʁ e s j ɔ̃
accrétions a k ʁ e s j ɔ̃Par défaut, les données grattées apparaissent dans le terminal. Pour enregistrer les données dans un fichier TSV, veuillez rediriger la sortie standard vers un nom de fichier de votre choix:
wikipron fra > fra.tsv La commande wikipron Terminal propose un tableau d'options pour configurer votre exécution de grattage. Pour une liste complète des options, veuillez exécuter wikipron -h .
Le module sous-jacent peut également être utilisé à partir de Python. Un workflow standard ressemble:
import wikipron
config = wikipron . Config ( key = "fra" ) # French, with default options.
for word , pron in wikipron . scrape ( config ):
...Nous mettons également à disposition une base de données de plus de 3 millions de paires de mots / prononciations extraites à l'aide de Wikipron.
Nous hébergeons des modèles graphème-phonèques et des logiciels de modélisation dans un référentiel séparé.
Le code source de Wikipron est hébergé sur GitHub à https://github.com/CUNY-CL/wikipron , où le développement se produit également.
Pour les dernières modifications non encore publiées via pip ou travaillant sur la base de code vous-même, vous pouvez obtenir le dernier code source via GitHub et git :
Créez une fourche du Repo wikipron sur votre compte GitHub.
Localement, assurez-vous que vous êtes dans une sorte d'environnement virtuel (VENV, VirtualEnv, Conda, etc.).
Téléchargez et installez la bibliothèque dans le mode "modifiable" ainsi que les dépendances du noyau et des développeurs dans l'environnement virtuel:
git clone https://github.com/ < your-github-username > /wikipron.git
cd wikipron
pip install -U pip setuptools
pip install -r requirements.txt
pip install --no-deps -e . Nous gardons une trace des changements notables dans CHANGELOG.md .
Pour les questions, les rapports de bogues et les demandes de fonctionnalités, veuillez déposer un problème.
Si vous souhaitez contribuer à la base de code wikipron , veuillez consulter contribution.md.
Wikipron est libéré sous une licence Apache 2.0. Veuillez consulter Licence.txt pour plus de détails.
Veuillez noter que les données Wiktionary dans les data/ répertoires ont ses propres conditions de licence.