Wikipron-это инструмент командной строки и Python API для анализа многоязычных данных произношения от Wiktionary, а также базы данных словарей произношения, добываемых с использованием этого инструмента.
Если вы используете Wikipron в своем исследовании, пожалуйста, укажите следующее:
Джексон Л. Ли, Лукас Фе Эшби, М. Элизабет Гарза, Йонджу Ли-Сикка, Шон Миллер, Алан Вонг, Арья Д. Маккарти и Кайл Горман (2020). Массовая многоязычная добыча произношения с Википрон. В материалах 12-й языковой конференции и оценки , страницы 4223-4228. [Bibtex]
pip install wikipron После установки будет доступна команда терминала wikipron . В качестве основного примера, следующая командная царапина G2P данных для французского:
wikipron fra Язык обозначен языком с тремя буквами ISO 639-3, например, fra для французского. Для каких языков можно поскраститься, вот полный список языков на Wiktionary, которые имеют записи произношения.
При желании можно указать диалекты для цели, используя флаг --dialect . Название диалекта можно найти вместе с транскрипцией на Wiktionary. Например, "(UK, US) IPA: /təˈmːtəʊ /". Чтобы ограничить союз диалектов. Используйте символ трубы '|': например, --dialect='General American | US' . Транскрипции, в которых отсутствует спецификация диалекта, выбираются независимо от значения этого флага.
По умолчанию Wikipron выбирает широкие произношения в угловых скобках /как это /. Вместо этого можно выбрать узкие транскрипции, написанные [как это], используя флаг --narrow . Обратите внимание, что некоторые языки имеют только широкие или узкие транскрипции (например, у русских есть только последние.
По умолчанию библиотека segments используется для сегмента транскрипции на пробел. Сегментация имеет тенденцию размещать Diacritics и модификаторы IPA на символ «родительского». Например, [kʰæt] представлен kʰ æ t . Это может быть отключено, используя флаг --no-segment .
Некоторые из транскрипций содержат скобки, чтобы указать альтернативные произношения. Сложные скобки (но не содержание) отбрасываются в царапине, если не используется флаг --no-skip-parens .
Сокращенные данные организованы с помощью каждого <слова, произношения> пары на своей собственной строке, где слово и произношение разделены с помощью вкладки. Обратите внимание, что произношение находится в международном фонетическом алфавите (IPA), сегментированном по пространствам, которые правильно обрабатывают комбинирующие и модификационные диаклитики для целей моделирования, например, мы имеем kʰ æ t с аспирированным K вместо k ʰ æ t
Для иллюстрации, вот фрагмент французских данных, соскобленных Wikipron:
accrémentitielle a k ʁ e m ɑ̃ t i t j ɛ l
accrescent a k ʁ ɛ s ɑ̃
accrétion a k ʁ e s j ɔ̃
accrétions a k ʁ e s j ɔ̃По умолчанию в терминале появляются скрещенные данные. Чтобы сохранить данные в файле TSV, перенаправьте стандартный выход на имя файла по вашему выбору:
wikipron fra > fra.tsv Команда wikipron Terminal имеет массив параметров для настройки вашего скребки. Для полного списка вариантов, пожалуйста, запустите wikipron -h .
Основной модуль также можно использовать с Python. Стандартный рабочий процесс выглядит:
import wikipron
config = wikipron . Config ( key = "fra" ) # French, with default options.
for word , pron in wikipron . scrape ( config ):
...Мы также предоставляем базу данных из более 3 миллионов пар/произношения, добываемых с использованием Wikipron.
Мы размещаем модели графы-фонем и программное обеспечение для моделирования в отдельном репозитории.
Исходный код Wikipron размещен на Github по адресу https://github.com/CUNY-CL/wikipron , где также происходит разработка.
Для последних изменений, еще не выпущенных через pip или не работая над кодовой базой самостоятельно, вы можете получить последний исходный код через GitHub и git :
Создайте вилку wikipron Repo в вашей учетной записи Github.
Локально убедитесь, что вы находитесь в какой -то виртуальной среде (Venv, Virtualenv, Conda и т. Д.).
Загрузите и установите библиотеку в режиме «редактируемые» вместе с зависимостью основной и DEV в виртуальной среде:
git clone https://github.com/ < your-github-username > /wikipron.git
cd wikipron
pip install -U pip setuptools
pip install -r requirements.txt
pip install --no-deps -e . Мы отслеживаем заметные изменения в CHANGELOG.md .
По вопросам, отчетам об ошибках и запросах функций, пожалуйста, подайте проблему.
Если вы хотите внести свой вклад в кодовую базу wikipron , см. Appling.md.
Wikipron выпускается по лицензии Apache 2.0. Пожалуйста, смотрите License.txt для получения подробной информации.
Обратите внимание, что данные Wiktionary в data/ каталоге имеют свои собственные условия лицензирования.