ngramModelTrainer
1.0.0
코퍼스가 주어진 n 그램 언어 모델을 배웁니다. 코퍼스는 텍스트 파일이어야하며, 단어 공간이없는 줄 당 단일 단어가 있어야합니다.
배운 수량은 다음과 같습니다.
인수없이 실행하여 스크립트를 테스트하십시오.
python3 ngramModelTrainer
적절한 입력으로 도구를 사용하는 방법에 대한 자세한 내용은 -h 플래그를 사용하십시오.
python3 ngramModelTrainer -h
fixtures/ 에 몇 가지 예제 입력이 있습니다.
출력은 4 개의 MATLAB 행렬로 저장됩니다.
허용 가능한 특정 유니그램의 알파벳을 정의해야합니다. 기본적으로, 우리는 36 개의 가능한 문자/자릿수의 알파벳을 사용하고 있습니다. 이들은 다음 순서로 '알파벳'이라는 파이썬 목록에 보관됩니다.
위의 알파벳의 비표준 버전이 사용될 수 있습니다. 여기에는 dutta_extended : 다수의 추가 문자 (이들은 George Washington Handritten Document 세트에서 발견되는 문자의 인코딩과 구두점입니다). 소피아 : 폴리 톤 그리스 캐릭터. 더미 : 3 자의 제한된 테스트 세트