wikipron Download - wikipron Source Code Download

wikipron

Anderer Quellcode

v1.3.3

Herunterladen

Wikipron

WikiPron ist ein Befehlszeilen-Tool und eine Python-API für die Bergung mehrsprachiger Aussprachedaten von Wiktionary sowie eine Datenbank von Aussprachewörterbüchern, die mit diesem Tool abgebaut wurden.

Befehlszeilen-Tool
Python API
Daten
Modelle
Entwicklung

Wenn Sie WikiPron in Ihrer Forschung verwenden, geben Sie Folgendes an:

Jackson L. Lee, Lucas Fe Ashby, M. Elizabeth Garza, Yeonju Lee-Sikka, Sean Miller, Alan Wong, Arya D. McCarthy und Kyle Gorman (2020). Massiv mehrsprachiger Aussprache Mining mit WikiPron. In Proceedings of the 12. Language Resources and Evaluation Conference , Seiten 4223-4228. [Bibtex]

Befehlszeilen-Tool

Installation

pip install wikipron

Verwendung

Schneller Start

Nach der Installation ist der Terminalbefehl wikipron verfügbar. Als grundlegendes Beispiel kratzt der folgende Befehl G2P -Daten für Französisch:

wikipron fra

Angabe der Sprache

Die Sprache wird durch einen Drei-Buchstaben ISO 639-3-Sprachcode, z. B. fra für Französisch, angezeigt. Für welche Sprachen abgekratzt werden können, finden Sie hier die vollständige Liste der Sprachen zu wiktionären, die Ausspracheeinträge haben.

Angabe des Dialekts

Man kann optional Dialekte angeben, um das Flag --dialect zu zielen. Der Dialektname finden Sie zusammen mit der Transkription auf wiktionär. Zum Beispiel "(Großbritannien, USA) IPA: /təˈmːtʊʊ /". Um die Gewerkschaft von Dialekten zu beschränken, verwenden Sie das Rohrcharakter '|': z --dialect='General American | US' . Transkriptionen, denen eine Dialektspezifikation fehlt, werden unabhängig vom Wert dieses Flags ausgewählt.

Angabe der Transkriptionsebene

Standardmäßig wählt WikiPron breite Aussprachen in abgewinkelten Klammern /wie dieses /. Man kann stattdessen enge Transkriptionen auswählen, die [wie dieses] mit dem Flag --narrow geschrieben wurden. Beachten Sie, dass einige Sprachen nur breite oder enge Transkriptionen haben (z. B. Russisch hat nur letztere.

Segmentierung

Standardmäßig wird die segments -Bibliothek verwendet, um die Transkription in Whitespace zu segmentieren. Die Segmentierung neigt dazu, IPA -Diakritik und Modifikatoren auf das Symbol "Eltern" zu platzieren. Zum Beispiel wird [Kʰæt] kʰ æ t . Dies kann mit dem Flag --no-segment -Flag deaktiviert werden.

Klammern

Einige Transkriptionen enthalten Klammern, um alternative Aussprachen anzuzeigen. Die Klammern (aber nicht der Inhalt) werden im Kratzer verworfen, es sei denn, das Flag --no-skip-parens wird verwendet.

Ausgabe

Die abgekratzten Daten werden mit jedem <Wort, Aussprache> Paar in seiner eigenen Zeile organisiert, wobei das Wort und das Aussprache durch eine Registerkarte getrennt werden. Beachten Sie, dass sich die Aussprache im internationalen phonetischen Alphabet (IPA) befindet, das nach Räumen segmentiert ist, die die Kombinations- und Modifikatordiakritik für Modellierungszwecke korrekt verarbeiten, z. B. haben wir kʰ æ t mit dem Aspirierten k anstelle von k ʰ æ t .

Zur Illustration finden Sie hier ein Ausschnitt französischer Daten, die von WikiPron abgekratzt wurden:

 accrémentitielle    a k ʁ e m ɑ̃ t i t j ɛ l
accrescent  a k ʁ ɛ s ɑ̃
accrétion   a k ʁ e s j ɔ̃
accrétions  a k ʁ e s j ɔ̃

Standardmäßig werden die abgekratzten Daten im Terminal angezeigt. Um die Daten in einer TSV -Datei zu speichern, leiten Sie bitte die Standardausgabe in einen Dateinamen Ihrer Wahl um:

wikipron fra > fra.tsv

Erweiterte Optionen

Der Befehl wikipron terminal verfügt über eine Reihe von Optionen, um Ihren Scraping -Lauf zu konfigurieren. Für eine vollständige Liste der Optionen führen Sie bitte wikipron -h aus.

Python API

Das zugrunde liegende Modul kann auch von Python verwendet werden. Ein Standard -Workflow sieht aus wie:

 import wikipron

config = wikipron . Config ( key = "fra" )  # French, with default options.
for word , pron in wikipron . scrape ( config ):
    ...

Daten

Wir stellen auch eine Datenbank mit über 3 Millionen Wort-/Aussprachepaaren zur Verfügung, die mit WikiPron abgebaut wurden.

Modelle

Wir hosten Modelle von Grapheme-Phoneme und Modellierungssoftware in einem separaten Repository.

Entwicklung

Repository

Der Quellcode von WikiPron wird auf Github unter https://github.com/CUNY-CL/wikipron gehostet, wo auch die Entwicklung stattfindet.

Für die neuesten Änderungen, die noch nicht über pip veröffentlicht wurden oder selbst an der Codebasis arbeiten, können Sie den neuesten Quellcode über GitHub und git erhalten:

Erstellen Sie eine Gabel des wikipron -Repo auf Ihrem Github -Konto.
Stellen Sie sich vor Ort sicher, dass Sie sich in einer virtuellen Umgebung befinden (Virt, Virtualenv, Conda usw.).

Laden Sie die Bibliothek im "bearbeitbaren" Modus zusammen mit den Kern- und Dev -Abhängigkeiten in der virtuellen Umgebung herunter und installieren Sie sie:

git clone https://github.com/ < your-github-username > /wikipron.git
cd wikipron
pip install -U pip setuptools
pip install -r requirements.txt
pip install --no-deps -e .

Wir verfolgen bemerkenswerte Änderungen in CHANGELOG.md .

Beitragen

Für Fragen, Fehlerberichte und Feature -Anfragen stellen Sie bitte ein Problem ein.

Wenn Sie zur wikipron -Codebasis beitragen möchten, sehen Sie sich bitte an.

Lizenz

WikiPron wird unter einer Apache 2.0 -Lizenz veröffentlicht. Weitere Informationen finden Sie unter Lizenz.txt.

Bitte beachten Sie, dass wiktionäre Daten im data/ Verzeichnis seine eigenen Lizenzbedingungen haben.

Expandieren

Zusätzliche Informationen

Version v1.3.3
Typ Anderer Quellcode
Aktualisierungszeit 2025-04-16
Größe 36.51MB
Kommt von Github

Ähnliche Anwendungen

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

wikipron

Wikipron

Befehlszeilen-Tool

Installation

Verwendung

Schneller Start

Angabe der Sprache

Angabe des Dialekts

Angabe der Transkriptionsebene

Segmentierung

Klammern

Ausgabe

Erweiterte Optionen

Python API

Daten

Modelle

Entwicklung

Repository

Beitragen

Lizenz

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express