wikipron下載 - wikipron源代碼下載

wikipron

其他源碼

v1.3.3

下載

維基普隆

Wikipron是一種命令行工具和Python API，用於挖掘Wiktionary的多語言發音數據，也是使用此工具開采的發音字典數據庫。

命令行工具
Python API
數據
型號
發展

如果您在研究中使用Wikipron，請引用以下內容：

傑克遜·李（Jackson L. Wikipron的大量多語言發音挖掘。在第12語言資源和評估會議論文集中，第4223-4228頁。 [Bibtex]

命令行工具

安裝

pip install wikipron

用法

快速開始

安裝後，將提供終端命令wikipron 。作為一個基本示例，以下命令將法語刪除G2P數據：

wikipron fra

指定語言

該語言由三個字母的ISO 639-3語言代碼表示，例如法語，例如fra 。對於哪種語言，這是Wiktionary上具有發音條目的全部語言列表。

指定方言

可以選擇使用--dialect標誌指定方言。方言名稱可以與Wiktionary上的轉錄一起找到。例如，“（英國，美國）ipa： /tpestionˈtəʊ /”。限制對方言聯合使用管道字符'|'：eg， --dialect='General American | US' 。無論該標誌的值如何，都選擇缺乏方言規範的轉錄。

指定轉錄水平

默認情況下，Wikipron在傾斜括號中選擇寬闊的發音 /像這樣 /。相反，可以使用--narrow標誌選擇狹窄的轉錄[像這樣]。請注意，某些語言只有寬或狹窄的轉錄（例如，俄羅斯只有後者。

分割

默認情況下， segments庫用於將轉錄分段為whitespace。分段傾向於將IPA變量和修飾符放在“父”符號上。例如，[kʰæt]被渲染kʰ æ t 。可以使用--no-segment標誌禁用這一點。

括號

某些轉錄包含括號以表明替代發音。除非使用--no-skip-parens標誌，否則將括號（但不是內容）丟棄。

輸出

刮擦數據是用每個<Word，發音>對在其自己的行上的，在該行中，單詞和發音通過選項卡分開。請注意，發音是在國際語音字母（IPA）中進行的，該空間被正確處理用於建模目的的組合和修飾的變量的空間，例如，我們具有帶吸氣的k而不是k ʰ æ t kʰ æ t

為了插圖，這是Wikipron刮擦的法國數據片段：

 accrémentitielle    a k ʁ e m ɑ̃ t i t j ɛ l
accrescent  a k ʁ ɛ s ɑ̃
accrétion   a k ʁ e s j ɔ̃
accrétions  a k ʁ e s j ɔ̃

默認情況下，刮擦數據出現在終端中。要將數據保存在TSV文件中，請將標準輸出重定向到您選擇的文件名：

wikipron fra > fra.tsv

高級選項

wikipron終端命令具有一系列選項，可以配置刮擦運行。有關選項的完整列表，請運行wikipron -h 。

Python API

基礎模塊也可以從Python使用。標準工作流程看起來像：

 import wikipron

config = wikipron . Config ( key = "fra" )  # French, with default options.
for word , pron in wikipron . scrape ( config ):
    ...

數據

我們還提供了使用Wikipron開采的300萬個單詞/發音對的數據庫。

型號

我們在單獨的存儲庫中託管字符到音素模型和建模軟件。

發展

存儲庫

Wikipron的源代碼託管在https://github.com/CUNY-CL/wikipron上的GitHub上，在此也發生了。

對於尚未通過pip發布或親自在代碼庫上工作的最新更改，您可以通過GitHub和git獲得最新的源代碼：

在您的github帳戶上創建wikipron回購的叉子。
在本地，請確保您處於某種虛擬環境（VENV，Virtualenv，Conda等）。

在虛擬環境中下載並在“可編輯”模式下下載並安裝庫：

git clone https://github.com/ < your-github-username > /wikipron.git
cd wikipron
pip install -U pip setuptools
pip install -r requirements.txt
pip install --no-deps -e .

我們跟踪CHANGELOG.md中的顯著變化。