wikipron下载 - wikipron源代码下载

wikipron

其他源码

v1.3.3

下载

维基普隆

Wikipron是一种命令行工具和Python API，用于挖掘Wiktionary的多语言发音数据，也是使用此工具开采的发音字典数据库。

命令行工具
Python API
数据
型号
发展

如果您在研究中使用Wikipron，请引用以下内容：

杰克逊·李（Jackson L. Wikipron的大量多语言发音挖掘。在第12语言资源和评估会议论文集中，第4223-4228页。 [Bibtex]

命令行工具

安装

pip install wikipron

用法

快速开始

安装后，将提供终端命令wikipron 。作为一个基本示例，以下命令将法语删除G2P数据：

wikipron fra

指定语言

该语言由三个字母的ISO 639-3语言代码表示，例如法语，例如fra 。对于哪种语言，这是Wiktionary上具有发音条目的全部语言列表。

指定方言

可以选择使用--dialect标志指定方言。方言名称可以与Wiktionary上的转录一起找到。例如，“（英国，美国）ipa： /tpestionˈtəʊ /”。限制对方言联合使用管道字符'|'：eg， --dialect='General American | US' 。无论该标志的值如何，都选择缺乏方言规范的转录。

指定转录水平

默认情况下，Wikipron在倾斜括号中选择宽阔的发音 /像这样 /。相反，可以使用--narrow标志选择狭窄的转录[像这样]。请注意，某些语言只有宽或狭窄的转录（例如，俄罗斯只有后者。

分割

默认情况下， segments库用于将转录分段为whitespace。分段倾向于将IPA变量和修饰符放在“父”符号上。例如，[kʰæt]被渲染kʰ æ t 。可以使用--no-segment标志禁用这一点。

括号

某些转录包含括号以表明替代发音。除非使用--no-skip-parens标志，否则将括号（但不是内容）丢弃。

输出

刮擦数据是用每个<Word，发音>对在其自己的行上的，在该行中，单词和发音通过选项卡分开。请注意，发音是在国际语音字母（IPA）中进行的，该空间被正确处理用于建模目的的组合和修饰的变量的空间，例如，我们具有带吸气的k而不是k ʰ æ t kʰ æ t

为了插图，这是Wikipron刮擦的法国数据片段：

 accrémentitielle    a k ʁ e m ɑ̃ t i t j ɛ l
accrescent  a k ʁ ɛ s ɑ̃
accrétion   a k ʁ e s j ɔ̃
accrétions  a k ʁ e s j ɔ̃

默认情况下，刮擦数据出现在终端中。要将数据保存在TSV文件中，请将标准输出重定向到您选择的文件名：

wikipron fra > fra.tsv

高级选项

wikipron终端命令具有一系列选项，可以配置刮擦运行。有关选项的完整列表，请运行wikipron -h 。

Python API

基础模块也可以从Python使用。标准工作流程看起来像：

 import wikipron

config = wikipron . Config ( key = "fra" )  # French, with default options.
for word , pron in wikipron . scrape ( config ):
    ...

数据

我们还提供了使用Wikipron开采的300万个单词/发音对的数据库。

型号

我们在单独的存储库中托管字符到音素模型和建模软件。

发展

存储库

Wikipron的源代码托管在https://github.com/CUNY-CL/wikipron上的GitHub上，在此也发生了。

对于尚未通过pip发布或亲自在代码库上工作的最新更改，您可以通过GitHub和git获得最新的源代码：

在您的github帐户上创建wikipron回购的叉子。
在本地，请确保您处于某种虚拟环境（VENV，Virtualenv，Conda等）。

在虚拟环境中下载并在“可编辑”模式下下载并安装库：

git clone https://github.com/ < your-github-username > /wikipron.git
cd wikipron
pip install -U pip setuptools
pip install -r requirements.txt
pip install --no-deps -e .

我们跟踪CHANGELOG.md中的显着变化。

贡献

有关问题，错误报告和功能请求，请提出问题。

如果您想为wikipron代码库做出贡献，请参阅ponsuting.md。

执照

Wikipron以Apache 2.0许可发布。有关详细信息，请参见License.txt。

请注意， data/目录中的Wiktionary数据具有其自己的许可条款。

展开

附加信息

版本 v1.3.3
类型其他源码
更新时间 2025-04-16
大小 36.51MB
来自于 Github

wikipron

维基普隆

命令行工具

安装

用法

快速开始

指定语言

指定方言

指定转录水平

分割

括号

输出

高级选项

Python API

数据

型号

发展

存储库

贡献

执照

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express