Wikipronは、Wiktionaryからの多言語発音データをマイニングするためのコマンドラインツールおよびPython APIであり、このツールを使用してマイニングされた発音辞書のデータベースです。
調査でWikipronを使用する場合は、以下を引用してください。
ジャクソン・L・リー、ルーカス・フェ・アシュビー、M。エリザベス・ガルザ、ヨンジュ・リー・シッカ、ショーン・ミラー、アラン・ウォン、アリア・D・マッカーシー、カイル・ゴーマン(2020)。ウィキプロンによる多言語発音マイニング。第12言語リソースと評価会議の議事録、4223-4228ページ。 [bibtex]
pip install wikipronインストール後、ターミナルコマンドwikipron利用可能になります。基本的な例として、次のコマンドはフランス語のG2Pデータを削ります:
wikipron fraこの言語は、3文字のISO 639-3言語コード、たとえばフランス語のfraで示されています。言語を削ることができるかどうかは、発音エントリを備えたWiktionaryの言語の完全なリストを以下に示します。
--dialectフラグを使用してターゲットにする方言をオプションで指定できます。方言の名前は、wiktionaryの転写と一緒に見つけることができます。たとえば、「(英国、米国)ipa: /təˈmギート /」。方言の結合に制限するには、パイプ文字 '|'を使用します--dialect='General American | US' 。このフラグの値に関係なく、方言の仕様を欠いている転写は選択されます。
デフォルトでは、Wikipronは角度のある括弧 /のような幅広い発音を選択します。代わりに、 --narrowフラグを使用して[このように]書かれた狭い転写を選択できます。一部の言語には、広範囲または狭い転写のみがあることに注意してください(たとえば、ロシア語は後者のみを持っています。
デフォルトでは、 segmentsライブラリを使用して、転写を空白に分割します。セグメンテーションは、IPAディクリティックと修飾子を「親」記号に配置する傾向があります。たとえば、[kʰæt]はkʰ æ tレンダリングされます。これは--no-segmentフラグを使用して無効にすることができます。
いくつかの転写には、代替の発音を示す括弧が含まれています。 --no-skip-parensフラグが使用されない限り、括弧(コンテンツではなく)は、スクレイプで破棄されます。
スクレイプされたデータは、単語と発音がタブで区切られている独自の線に<単語、発音>ペアごとに編成されます。発音は、モデリング目的のために組み合わせと修飾装置のディクリティックスを正しく処理するスペースによってセグメントkʰ æ tされた国際音声アルファベット(IPA)にあることに注意してくださいk ʰ æ t
説明のために、これはウィキプロンによって削られたフランスのデータのスニペットです:
accrémentitielle a k ʁ e m ɑ̃ t i t j ɛ l
accrescent a k ʁ ɛ s ɑ̃
accrétion a k ʁ e s j ɔ̃
accrétions a k ʁ e s j ɔ̃デフォルトでは、削除されたデータが端末に表示されます。 TSVファイルにデータを保存するには、標準出力を選択したファイル名にリダイレクトしてください。
wikipron fra > fra.tsvwikipronミナルコマンドには、スクレイピングの実行を構成するための一連のオプションがあります。オプションの完全なリストについては、 wikipron -hを実行してください。
基礎となるモジュールは、Pythonからも使用できます。標準のワークフローは次のようになります:
import wikipron
config = wikipron . Config ( key = "fra" ) # French, with default options.
for word , pron in wikipron . scrape ( config ):
...また、Wikipronを使用して採掘された300万語/発音ペアを超えるデータベースも利用できます。
Grapheme-to-Phonemeモデルとモデリングソフトウェアを別のリポジトリにホストします。
Wikipronのソースコードは、開発が行われるhttps://github.com/CUNY-CL/wikipronのGithubでホストされています。
pipを介してまだリリースされていない最新の変更またはCodeBaseで作業している場合、GitHubとgitを使用して最新のソースコードを取得できます。
GitHubアカウントにwikipron Repoのフォークを作成します。
ローカルでは、ある種の仮想環境(Venv、Virtualenv、Condaなど)にいることを確認してください。
仮想環境内のコアおよび開発依存関係とともに、「編集可能な」モードでライブラリをダウンロードしてインストールします。
git clone https://github.com/ < your-github-username > /wikipron.git
cd wikipron
pip install -U pip setuptools
pip install -r requirements.txt
pip install --no-deps -e . CHANGELOG.mdの顕著な変更を追跡します。
質問、バグレポート、および機能リクエストについては、問題を提出してください。
wikipronコードベースに貢献したい場合は、converting.mdをご覧ください。
ウィキプロンは、Apache 2.0ライセンスの下でリリースされます。詳細については、license.txtを参照してください。
data/ディレクトリのWiktionaryデータには独自のライセンス条件があることに注意してください。