Wikipron은 Wiktionary의 다국어 발음 데이터를 채굴하기위한 명령 줄 도구 및 Python API 이며이 도구를 사용하여 채굴 된 발음 사전 데이터베이스입니다.
연구에서 Wikipron을 사용하는 경우 다음을 인용하십시오.
Jackson L. Lee, Lucas Fe Ashby, M. Elizabeth Garza, Yeonju Lee-Sikka, Sean Miller, Alan Wong, Arya D. McCarthy 및 Kyle Gorman (2020). Wikipron을 사용한 대규모 다국어 발음 채굴. 12 번째 언어 리소스 및 평가 회의의 절차 에서 4223-4228 페이지. [Bibtex]
pip install wikipron 설치 후 터미널 명령 wikipron 사용할 수 있습니다. 기본적인 예로서, 다음 명령은 프랑스어에 대한 G2P 데이터를 긁어냅니다.
wikipron fra 언어는 프랑스어 fra 3 글자 ISO 639-3 언어 코드로 표시됩니다. 언어를 긁어 낼 수있는 것은 다음은 발음 항목이있는 Wiktionary의 전체 언어 목록입니다.
선택적으로 --dialect 플래그를 사용하여 대상 방언을 지정할 수 있습니다. 방언 이름은 Wiktionary의 전사와 함께 찾을 수 있습니다. 예를 들어, "(UK, US) ipa : /təˈmɑːtəʊ /". 방언의 결합으로 제한하려면 파이프 문자 '|': eg, --dialect='General American | US' . 방언 사양이없는 전사는이 플래그의 값에 관계없이 선택됩니다.
기본적으로 Wikipron은 앵글 괄호로 광범위한 발음을 선택합니다. 대신 --narrow 플래그를 사용하여 [이와 같이] 쓰여진 좁은 전사를 선택할 수 있습니다. 일부 언어에는 넓거나 좁은 전사가 있습니다 (예 : 러시아어는 후자 만 있습니다.
기본적으로 segments 라이브러리는 전사를 공백으로 분할하는 데 사용됩니다. 세분화는 IPA 디아크리닉 및 수정자를 "부모"기호에 배치하는 경향이 있습니다. 예를 들어, [kʰæt]는 kʰ æ t 렌더링됩니다. --no-segment 플래그를 사용하여 비활성화 할 수 있습니다.
일부 전사는 대체 발음을 나타내는 괄호가 포함되어 있습니다. --no-skip-parens 플래그가 사용되지 않는 한 괄호 (컨텐츠는 아님)가 스크랩에 폐기됩니다.
스크랩 된 데이터는 단어와 발음이 탭으로 분리되는 자체 라인에 각각의 <Word, Pronunciation> 쌍으로 구성됩니다. 발음은 국제 발음 알파벳 (IPA)에 있으며, 모델링 목적으로 결합 및 수정 자 디아크리 물질을 올바르게 처리하는 공간으로 분류된다는 점 k ʰ æ t kʰ æ t 하십시오.
예를 들어, 위키피런이 긁힌 프랑스 데이터 스 니펫이 있습니다.
accrémentitielle a k ʁ e m ɑ̃ t i t j ɛ l
accrescent a k ʁ ɛ s ɑ̃
accrétion a k ʁ e s j ɔ̃
accrétions a k ʁ e s j ɔ̃기본적으로 스크래프 데이터는 터미널에 나타납니다. TSV 파일에 데이터를 저장하려면 표준 출력을 선택한 파일 이름으로 리디렉션하십시오.
wikipron fra > fra.tsv wikipron 터미널 명령에는 스크래핑 실행을 구성하는 다양한 옵션이 있습니다. 옵션의 전체 목록을 보려면 wikipron -h 실행하십시오.
기본 모듈은 파이썬에서도 사용할 수 있습니다. 표준 워크 플로는 다음과 같습니다.
import wikipron
config = wikipron . Config ( key = "fra" ) # French, with default options.
for word , pron in wikipron . scrape ( config ):
...또한 Wikipron을 사용하여 채굴 된 3 백만 단어 이상의 단어/발음 쌍의 데이터베이스를 사용할 수 있습니다.
우리는 별도의 저장소에서 Grapheme-to-Phoneme 모델 및 모델링 소프트웨어를 호스팅합니다.
Wikipron의 소스 코드는 Github에서 https://github.com/CUNY-CL/wikipron 에서 개최되며 개발도 발생합니다.
pip 를 통해 아직 출시되지 않았거나 코드베이스 작업을 직접 작업하지 않으면 GitHub 및 git 통해 최신 소스 코드를 얻을 수 있습니다.
GitHub 계정에서 wikipron Repo의 포크를 만듭니다.
로컬로, 당신은 일종의 가상 환경 (Venv, Virtualenv, Conda 등)에 있는지 확인하십시오.
가상 환경 내에서 코어 및 DEV 종속성과 함께 "편집 가능한"모드로 라이브러리를 다운로드하여 설치하십시오.
git clone https://github.com/ < your-github-username > /wikipron.git
cd wikipron
pip install -U pip setuptools
pip install -r requirements.txt
pip install --no-deps -e . CHANGELOG.md 의 주목할만한 변화를 추적합니다.
질문, 버그 보고서 및 기능 요청은 문제를 제출하십시오.
wikipron 코드베이스에 기여하려면 Contributing.md를 참조하십시오.
Wikipron은 Apache 2.0 라이센스에 따라 릴리스됩니다. 자세한 내용은 License.txt를 참조하십시오.
data/ 디렉토리의 Wiktionary 데이터에는 자체 라이센스 용어가 있습니다.