WikiPron ist ein Befehlszeilen-Tool und eine Python-API für die Bergung mehrsprachiger Aussprachedaten von Wiktionary sowie eine Datenbank von Aussprachewörterbüchern, die mit diesem Tool abgebaut wurden.
Wenn Sie WikiPron in Ihrer Forschung verwenden, geben Sie Folgendes an:
Jackson L. Lee, Lucas Fe Ashby, M. Elizabeth Garza, Yeonju Lee-Sikka, Sean Miller, Alan Wong, Arya D. McCarthy und Kyle Gorman (2020). Massiv mehrsprachiger Aussprache Mining mit WikiPron. In Proceedings of the 12. Language Resources and Evaluation Conference , Seiten 4223-4228. [Bibtex]
pip install wikipron Nach der Installation ist der Terminalbefehl wikipron verfügbar. Als grundlegendes Beispiel kratzt der folgende Befehl G2P -Daten für Französisch:
wikipron fra Die Sprache wird durch einen Drei-Buchstaben ISO 639-3-Sprachcode, z. B. fra für Französisch, angezeigt. Für welche Sprachen abgekratzt werden können, finden Sie hier die vollständige Liste der Sprachen zu wiktionären, die Ausspracheeinträge haben.
Man kann optional Dialekte angeben, um das Flag --dialect zu zielen. Der Dialektname finden Sie zusammen mit der Transkription auf wiktionär. Zum Beispiel "(Großbritannien, USA) IPA: /təˈmːtʊʊ /". Um die Gewerkschaft von Dialekten zu beschränken, verwenden Sie das Rohrcharakter '|': z --dialect='General American | US' . Transkriptionen, denen eine Dialektspezifikation fehlt, werden unabhängig vom Wert dieses Flags ausgewählt.
Standardmäßig wählt WikiPron breite Aussprachen in abgewinkelten Klammern /wie dieses /. Man kann stattdessen enge Transkriptionen auswählen, die [wie dieses] mit dem Flag --narrow geschrieben wurden. Beachten Sie, dass einige Sprachen nur breite oder enge Transkriptionen haben (z. B. Russisch hat nur letztere.
Standardmäßig wird die segments -Bibliothek verwendet, um die Transkription in Whitespace zu segmentieren. Die Segmentierung neigt dazu, IPA -Diakritik und Modifikatoren auf das Symbol "Eltern" zu platzieren. Zum Beispiel wird [Kʰæt] kʰ æ t . Dies kann mit dem Flag --no-segment -Flag deaktiviert werden.
Einige Transkriptionen enthalten Klammern, um alternative Aussprachen anzuzeigen. Die Klammern (aber nicht der Inhalt) werden im Kratzer verworfen, es sei denn, das Flag --no-skip-parens wird verwendet.
Die abgekratzten Daten werden mit jedem <Wort, Aussprache> Paar in seiner eigenen Zeile organisiert, wobei das Wort und das Aussprache durch eine Registerkarte getrennt werden. Beachten Sie, dass sich die Aussprache im internationalen phonetischen Alphabet (IPA) befindet, das nach Räumen segmentiert ist, die die Kombinations- und Modifikatordiakritik für Modellierungszwecke korrekt verarbeiten, z. B. haben wir kʰ æ t mit dem Aspirierten k anstelle von k ʰ æ t .
Zur Illustration finden Sie hier ein Ausschnitt französischer Daten, die von WikiPron abgekratzt wurden:
accrémentitielle a k ʁ e m ɑ̃ t i t j ɛ l
accrescent a k ʁ ɛ s ɑ̃
accrétion a k ʁ e s j ɔ̃
accrétions a k ʁ e s j ɔ̃Standardmäßig werden die abgekratzten Daten im Terminal angezeigt. Um die Daten in einer TSV -Datei zu speichern, leiten Sie bitte die Standardausgabe in einen Dateinamen Ihrer Wahl um:
wikipron fra > fra.tsv Der Befehl wikipron terminal verfügt über eine Reihe von Optionen, um Ihren Scraping -Lauf zu konfigurieren. Für eine vollständige Liste der Optionen führen Sie bitte wikipron -h aus.
Das zugrunde liegende Modul kann auch von Python verwendet werden. Ein Standard -Workflow sieht aus wie:
import wikipron
config = wikipron . Config ( key = "fra" ) # French, with default options.
for word , pron in wikipron . scrape ( config ):
...Wir stellen auch eine Datenbank mit über 3 Millionen Wort-/Aussprachepaaren zur Verfügung, die mit WikiPron abgebaut wurden.
Wir hosten Modelle von Grapheme-Phoneme und Modellierungssoftware in einem separaten Repository.
Der Quellcode von WikiPron wird auf Github unter https://github.com/CUNY-CL/wikipron gehostet, wo auch die Entwicklung stattfindet.
Für die neuesten Änderungen, die noch nicht über pip veröffentlicht wurden oder selbst an der Codebasis arbeiten, können Sie den neuesten Quellcode über GitHub und git erhalten:
Erstellen Sie eine Gabel des wikipron -Repo auf Ihrem Github -Konto.
Stellen Sie sich vor Ort sicher, dass Sie sich in einer virtuellen Umgebung befinden (Virt, Virtualenv, Conda usw.).
Laden Sie die Bibliothek im "bearbeitbaren" Modus zusammen mit den Kern- und Dev -Abhängigkeiten in der virtuellen Umgebung herunter und installieren Sie sie:
git clone https://github.com/ < your-github-username > /wikipron.git
cd wikipron
pip install -U pip setuptools
pip install -r requirements.txt
pip install --no-deps -e . Wir verfolgen bemerkenswerte Änderungen in CHANGELOG.md .
Für Fragen, Fehlerberichte und Feature -Anfragen stellen Sie bitte ein Problem ein.
Wenn Sie zur wikipron -Codebasis beitragen möchten, sehen Sie sich bitte an.
WikiPron wird unter einer Apache 2.0 -Lizenz veröffentlicht. Weitere Informationen finden Sie unter Lizenz.txt.
Bitte beachten Sie, dass wiktionäre Daten im data/ Verzeichnis seine eigenen Lizenzbedingungen haben.