Wikipron es una herramienta de línea de comandos y una API de Python para minería de datos de pronunciación multilingüe de Wiktionario, así como una base de datos de diccionarios de pronunciación extraídos utilizando esta herramienta.
Si usa Wikipron en su investigación, cite lo siguiente:
Jackson L. Lee, Lucas Fe Ashby, M. Elizabeth Garza, Yeonju Lee-Sikka, Sean Miller, Alan Wong, Arya D. McCarthy y Kyle Gorman (2020). Minería de pronunciación multilingüe masiva con wikipron. En Actas de la 12ª Conferencia de Recursos y Evaluación del Lenguaje , páginas 4223-4228. [Bibtex]
pip install wikipron Después de la instalación, el wikipron de comando terminal estará disponible. Como ejemplo básico, el siguiente comando raspa los datos G2P para francés:
wikipron fra El idioma está indicado por un código de idioma ISO 639-3 de tres letras, por ejemplo, fra para francés. Para qué idiomas se pueden raspar, aquí está la lista completa de idiomas en wiktionario que tienen entradas de pronunciación.
Opcionalmente, se puede especificar los dialectos para apuntar utilizando el indicador --dialect . El nombre del dialecto se puede encontrar junto con la transcripción en wiktionario. Por ejemplo, "(Reino Unido, EE. UU.) Ipa: /təˈmːtəʊ /". Para restringir a la unión de los dialectos, use el carácter de la tubería '|': por ejemplo, --dialect='General American | US' . Las transcripciones que carecen de una especificación del dialecto se seleccionan independientemente del valor de este indicador.
Por defecto, Wikipron selecciona pronunciaciones amplias en los soportes angulados /así /. En su lugar, se puede seleccionar transcripciones estrechas escritas [así] usando la bandera --narrow . Tenga en cuenta que algunos idiomas solo tienen transcripciones amplias o estrechas (por ejemplo, el ruso solo tiene este último.
Por defecto, la biblioteca segments se usa para segmentar la transcripción a Whitespace. La segmentación tiende a colocar diacríticos y modificadores de IPA en el símbolo "padre". Por ejemplo, [kʰæt] se representa kʰ æ t . Esto se puede deshabilitar utilizando el indicador --no-segment .
Algunas de las transcripciones contienen paréntesis para indicar pronunciaciones alternativas. Los paréntesis (pero no el contenido) se descartan en el raspado a menos que se use el indicador --no-skip-parens .
Los datos raspados se organizan con cada par <palabra, pronunciación> par en su propia línea, donde la palabra y la pronunciación están separadas por una pestaña. Tenga en cuenta que la pronunciación está en el alfabeto fonético internacional (IPA), segmentado por espacios que manejan correctamente los diacríticos de combinación y modificador para fines de modelado, por ejemplo, tenemos kʰ æ t con la K aspirada en lugar de k ʰ æ t
Para la ilustración, aquí hay un fragmento de datos franceses raspados por Wikipron:
accrémentitielle a k ʁ e m ɑ̃ t i t j ɛ l
accrescent a k ʁ ɛ s ɑ̃
accrétion a k ʁ e s j ɔ̃
accrétions a k ʁ e s j ɔ̃Por defecto, los datos raspados aparecen en el terminal. Para guardar los datos en un archivo TSV, redirige la salida estándar a un nombre de archivo de su elección:
wikipron fra > fra.tsv El comando wikipron Terminal tiene una serie de opciones para configurar su ejecución de raspado. Para obtener una lista completa de las opciones, ejecute wikipron -h .
El módulo subyacente también se puede usar desde Python. Se parece un flujo de trabajo estándar:
import wikipron
config = wikipron . Config ( key = "fra" ) # French, with default options.
for word , pron in wikipron . scrape ( config ):
...También ponemos a disposición una base de datos de más de 3 millones de pares de palabras/pronunciación extraídos con Wikipron.
Organizamos modelos de Grapheme a Foneme y software de modelado en un repositorio separado.
El código fuente de Wikipron está alojado en GitHub en https://github.com/CUNY-CL/wikipron , donde también ocurre el desarrollo.
Para los últimos cambios aún no lanzados a través de pip o trabajando en la base de código usted mismo, puede obtener el último código fuente a través de GitHub y git :
Cree una bifurcación del repositorio wikipron en su cuenta GitHub.
A nivel local, asegúrese de estar en algún tipo de entorno virtual (venv, virtualenv, conda, etc.).
Descargue e instale la biblioteca en el modo "Editable" junto con el núcleo y las dependencias de Dev dentro del entorno virtual:
git clone https://github.com/ < your-github-username > /wikipron.git
cd wikipron
pip install -U pip setuptools
pip install -r requirements.txt
pip install --no-deps -e . Hacemos un seguimiento de los cambios notables en CHANGELOG.md .
Para preguntas, informes de errores y solicitudes de funciones, presente un problema.
Si desea contribuir a la base de código wikipron , consulte Caboning.md.
Wikipron se lanza bajo una licencia Apache 2.0. Consulte License.txt para más detalles.
Tenga en cuenta que los datos de Wiktionario en los data/ directorio tienen sus propios términos de licencia.