O Wikipron é uma ferramenta de linha de comando e uma API Python para mineração de dados de pronúncia multilíngue do Wikcionaly, bem como um banco de dados de dicionários de pronúncia extraídos usando esta ferramenta.
Se você usar o Wikipron em sua pesquisa, cite o seguinte:
Jackson L. Lee, Lucas Fe Ashby, M. Elizabeth Garza, Yeonju Lee-Sikka, Sean Miller, Alan Wong, Arya D. McCarthy e Kyle Gorman (2020). Mineração massivamente de pronúncia multilíngue com Wikipron. Em Anais da 12ª Conferência de Recursos e Avaliação de Língua , páginas 4223-4228. [Bibtex]
pip install wikipron Após a instalação, o comando do terminal wikipron estará disponível. Como exemplo básico, o seguinte comando raspa dados G2P para francês:
wikipron fra O idioma é indicado por um código de idioma ISO 639-3 de três letras, por exemplo, fra para o francês. Para os quais os idiomas podem ser raspados, aqui está a lista completa de idiomas no Wikcionário que possuem entradas de pronúncia.
Opcionalmente, pode -se especificar os dialetos para segmentar usando o sinalizador --dialect . O nome do dialeto pode ser encontrado junto com a transcrição no Wikcionário. Por exemplo, "(UK, EUA) IPA: /təˈmːtəʊ /". Para restringir a união dos dialetos, use o caractere do tubo '|': por exemplo, --dialect='General American | US' . As transcrições que não possuem uma especificação de dialeto são selecionadas independentemente do valor desse sinalizador.
Por padrão, o Wikipron seleciona pronúncias amplas entre colchetes angulares /como este /. Em vez disso, pode -se selecionar transcrições estreitas escritas [como este] usando o sinalizador --narrow . Observe que alguns idiomas têm apenas transcrições amplas ou estreitas (por exemplo, o russo só tem o último.
Por padrão, a biblioteca segments é usada para segmentar a transcrição no espaço em branco. A segmentação tende a colocar diacríticas e modificadores IPA no símbolo "pai". Por exemplo, [Kʰæt] é renderizado kʰ æ t Isso pode ser desativado usando o sinalizador --no-segment .
Algumas das transcrições contêm parênteses para indicar pronúncias alternativas. Os parênteses (mas não o conteúdo) são descartados no raspamento, a menos que o sinalizador --no-skip-parens seja usado.
Os dados raspados são organizados com cada par em <Word, pronúncia> em sua própria linha, onde a palavra e a pronúncia são separados por uma guia. Observe que a pronúncia está no alfabeto fonético internacional (IPA), segmentado por espaços que lidam corretamente com os diacríticos combinados e modificadores para fins de modelagem, por exemplo, temos kʰ æ t com o K aspirado em vez de k ʰ æ t .
Para ilustração, aqui está um trecho de dados franceses raspados pelo Wikipron:
accrémentitielle a k ʁ e m ɑ̃ t i t j ɛ l
accrescent a k ʁ ɛ s ɑ̃
accrétion a k ʁ e s j ɔ̃
accrétions a k ʁ e s j ɔ̃Por padrão, os dados raspados aparecem no terminal. Para salvar os dados em um arquivo TSV, redirecione a saída padrão para um nome de arquivo de sua escolha:
wikipron fra > fra.tsv O comando wikipron Terminal tem uma variedade de opções para configurar sua execução de raspagem. Para uma lista completa das opções, execute wikipron -h .
O módulo subjacente também pode ser usado no Python. Um fluxo de trabalho padrão se parece:
import wikipron
config = wikipron . Config ( key = "fra" ) # French, with default options.
for word , pron in wikipron . scrape ( config ):
...Também disponibilizamos um banco de dados de mais de 3 milhões de pares de palavras/pronúncia extraídos usando o Wikipron.
Hospedamos modelos de grafema para fonema e software de modelagem em um repositório separado.
O código-fonte do Wikipron está hospedado no Github em https://github.com/CUNY-CL/wikipron , onde o desenvolvimento também acontece.
Para as mudanças mais recentes ainda não foram lançadas através do pip ou de trabalhar na base de código, você pode obter o código fonte mais recente através do Github e git :
Crie um garfo do repo wikipron em sua conta do GitHub.
Localmente, verifique se você está em algum tipo de ambiente virtual (VENV, VirtualEnv, Conde, etc.).
Faça o download e instale a biblioteca no modo "editável", juntamente com as dependências núcleo e dev no ambiente virtual:
git clone https://github.com/ < your-github-username > /wikipron.git
cd wikipron
pip install -U pip setuptools
pip install -r requirements.txt
pip install --no-deps -e . Continuamos as mudanças notáveis no CHANGELOG.md .
Para perguntas, relatórios de bugs e solicitações de recursos, registre um problema.
Se você deseja contribuir com a wikipron CodeBase, consulte Contribuindo.md.
O Wikipron é liberado sob uma licença Apache 2.0. Consulte License.txt para obter detalhes.
Observe que os dados do Wikcionário nos data/ diretórios têm seus próprios termos de licenciamento.