TTSTextNormalization
1.0.0
이 저장소에는 Google의 텍스트 정규화 과제 인 영어 솔루션이 있습니다. 마법의 대부분은 컨버터 디렉토리 내에서 발생하며 입력에서 출력 토큰으로 실제 변환을 담당합니다. 코드와 함께 내 솔루션에 관한 논문이 있습니다. 이 백서의 초록은 다음과 같습니다.
이 논문은 텍스트 음성 연설 정규화 문제에 대한 해결책뿐만 아니라 해결 방법을 제안하며, 이는 서면 표현에서 텍스트를 구어 형식으로 변환하는 데 중점을 둡니다. 이 방법은 그라디언트 강화 의사 결정 트리 모델을 통해 입력 토큰을 구문 분석하여 토큰을 16 가지 유형의 토큰 중 하나로 분류합니다. 그런 다음 토큰은 예측 된 토큰 유형에 따라 변환하여 음성 형태의 정규화 된 출력을 초래합니다. 관련 텍스트 음성 연사 정규화 경쟁에 들어가면 솔루션은 99.590% 의 정확도를 달성하여 260 개 팀 중 12 위 또는 모든 제출물의 상위 5%를 차지했습니다.
Python 파일을 실행하려면 data/raw 폴더에는 경쟁 자체의 원시 교육 및 테스트 데이터가 포함되어야합니다. 경쟁의 이용 약관으로 인해이 데이터는이 저장소에서 공유 할 수 없습니다.
이 저장소는 아카이브 역할을하며 업데이트 될 예정이 아닙니다.
아카이브로 설계 되었으므로이 저장소에 기여하지 않습니다.
이 프로젝트는 MIT 라이센스에 따라 라이센스가 부여됩니다. 자세한 내용은 License.md 파일을 참조하십시오.