Wikipron是一種命令行工具和Python API,用於挖掘Wiktionary的多語言發音數據,也是使用此工具開采的發音字典數據庫。
如果您在研究中使用Wikipron,請引用以下內容:
傑克遜·李(Jackson L. Wikipron的大量多語言發音挖掘。在第12語言資源和評估會議論文集中,第4223-4228頁。 [Bibtex]
pip install wikipron安裝後,將提供終端命令wikipron 。作為一個基本示例,以下命令將法語刪除G2P數據:
wikipron fra該語言由三個字母的ISO 639-3語言代碼表示,例如法語,例如fra 。對於哪種語言,這是Wiktionary上具有發音條目的全部語言列表。
可以選擇使用--dialect標誌指定方言。方言名稱可以與Wiktionary上的轉錄一起找到。例如,“(英國,美國)ipa: /tpestionˈtəʊ /”。限制對方言聯合使用管道字符'|':eg, --dialect='General American | US' 。無論該標誌的值如何,都選擇缺乏方言規範的轉錄。
默認情況下,Wikipron在傾斜括號中選擇寬闊的發音 /像這樣 /。相反,可以使用--narrow標誌選擇狹窄的轉錄[像這樣]。請注意,某些語言只有寬或狹窄的轉錄(例如,俄羅斯只有後者。
默認情況下, segments庫用於將轉錄分段為whitespace。分段傾向於將IPA變量和修飾符放在“父”符號上。例如,[kʰæt]被渲染kʰ æ t 。可以使用--no-segment標誌禁用這一點。
某些轉錄包含括號以表明替代發音。除非使用--no-skip-parens標誌,否則將括號(但不是內容)丟棄。
刮擦數據是用每個<Word,發音>對在其自己的行上的,在該行中,單詞和發音通過選項卡分開。請注意,發音是在國際語音字母(IPA)中進行的,該空間被正確處理用於建模目的的組合和修飾的變量的空間,例如,我們具有帶吸氣的k而不是k ʰ æ t kʰ æ t
為了插圖,這是Wikipron刮擦的法國數據片段:
accrémentitielle a k ʁ e m ɑ̃ t i t j ɛ l
accrescent a k ʁ ɛ s ɑ̃
accrétion a k ʁ e s j ɔ̃
accrétions a k ʁ e s j ɔ̃默認情況下,刮擦數據出現在終端中。要將數據保存在TSV文件中,請將標準輸出重定向到您選擇的文件名:
wikipron fra > fra.tsvwikipron終端命令具有一系列選項,可以配置刮擦運行。有關選項的完整列表,請運行wikipron -h 。
基礎模塊也可以從Python使用。標準工作流程看起來像:
import wikipron
config = wikipron . Config ( key = "fra" ) # French, with default options.
for word , pron in wikipron . scrape ( config ):
...我們還提供了使用Wikipron開采的300萬個單詞/發音對的數據庫。
我們在單獨的存儲庫中託管字符到音素模型和建模軟件。
Wikipron的源代碼託管在https://github.com/CUNY-CL/wikipron上的GitHub上,在此也發生了。
對於尚未通過pip發布或親自在代碼庫上工作的最新更改,您可以通過GitHub和git獲得最新的源代碼:
在您的github帳戶上創建wikipron回購的叉子。
在本地,請確保您處於某種虛擬環境(VENV,Virtualenv,Conda等)。
在虛擬環境中下載並在“可編輯”模式下下載並安裝庫:
git clone https://github.com/ < your-github-username > /wikipron.git
cd wikipron
pip install -U pip setuptools
pip install -r requirements.txt
pip install --no-deps -e .我們跟踪CHANGELOG.md中的顯著變化。
有關問題,錯誤報告和功能請求,請提出問題。
如果您想為wikipron代碼庫做出貢獻,請參閱ponsuting.md。
Wikipron以Apache 2.0許可發布。有關詳細信息,請參見License.txt。
請注意, data/目錄中的Wiktionary數據具有其自己的許可條款。