Wikipron是一种命令行工具和Python API,用于挖掘Wiktionary的多语言发音数据,也是使用此工具开采的发音字典数据库。
如果您在研究中使用Wikipron,请引用以下内容:
杰克逊·李(Jackson L. Wikipron的大量多语言发音挖掘。在第12语言资源和评估会议论文集中,第4223-4228页。 [Bibtex]
pip install wikipron安装后,将提供终端命令wikipron 。作为一个基本示例,以下命令将法语删除G2P数据:
wikipron fra该语言由三个字母的ISO 639-3语言代码表示,例如法语,例如fra 。对于哪种语言,这是Wiktionary上具有发音条目的全部语言列表。
可以选择使用--dialect标志指定方言。方言名称可以与Wiktionary上的转录一起找到。例如,“(英国,美国)ipa: /tpestionˈtəʊ /”。限制对方言联合使用管道字符'|':eg, --dialect='General American | US' 。无论该标志的值如何,都选择缺乏方言规范的转录。
默认情况下,Wikipron在倾斜括号中选择宽阔的发音 /像这样 /。相反,可以使用--narrow标志选择狭窄的转录[像这样]。请注意,某些语言只有宽或狭窄的转录(例如,俄罗斯只有后者。
默认情况下, segments库用于将转录分段为whitespace。分段倾向于将IPA变量和修饰符放在“父”符号上。例如,[kʰæt]被渲染kʰ æ t 。可以使用--no-segment标志禁用这一点。
某些转录包含括号以表明替代发音。除非使用--no-skip-parens标志,否则将括号(但不是内容)丢弃。
刮擦数据是用每个<Word,发音>对在其自己的行上的,在该行中,单词和发音通过选项卡分开。请注意,发音是在国际语音字母(IPA)中进行的,该空间被正确处理用于建模目的的组合和修饰的变量的空间,例如,我们具有带吸气的k而不是k ʰ æ t kʰ æ t
为了插图,这是Wikipron刮擦的法国数据片段:
accrémentitielle a k ʁ e m ɑ̃ t i t j ɛ l
accrescent a k ʁ ɛ s ɑ̃
accrétion a k ʁ e s j ɔ̃
accrétions a k ʁ e s j ɔ̃默认情况下,刮擦数据出现在终端中。要将数据保存在TSV文件中,请将标准输出重定向到您选择的文件名:
wikipron fra > fra.tsvwikipron终端命令具有一系列选项,可以配置刮擦运行。有关选项的完整列表,请运行wikipron -h 。
基础模块也可以从Python使用。标准工作流程看起来像:
import wikipron
config = wikipron . Config ( key = "fra" ) # French, with default options.
for word , pron in wikipron . scrape ( config ):
...我们还提供了使用Wikipron开采的300万个单词/发音对的数据库。
我们在单独的存储库中托管字符到音素模型和建模软件。
Wikipron的源代码托管在https://github.com/CUNY-CL/wikipron上的GitHub上,在此也发生了。
对于尚未通过pip发布或亲自在代码库上工作的最新更改,您可以通过GitHub和git获得最新的源代码:
在您的github帐户上创建wikipron回购的叉子。
在本地,请确保您处于某种虚拟环境(VENV,Virtualenv,Conda等)。
在虚拟环境中下载并在“可编辑”模式下下载并安装库:
git clone https://github.com/ < your-github-username > /wikipron.git
cd wikipron
pip install -U pip setuptools
pip install -r requirements.txt
pip install --no-deps -e .我们跟踪CHANGELOG.md中的显着变化。
有关问题,错误报告和功能请求,请提出问题。
如果您想为wikipron代码库做出贡献,请参阅ponsuting.md。
Wikipron以Apache 2.0许可发布。有关详细信息,请参见License.txt。
请注意, data/目录中的Wiktionary数据具有其自己的许可条款。