N Gram Language Model
1.0.0
포함 :
통계 언어 모델은 일련의 단어의 확률을 예측하기위한 확률 론적 모델의 개발입니다. 앞의 단어로 표시되는 역사 맥락을 감안할 때 다음 단어를 순서대로 예측할 수 있습니다.
우리가 모델링하려는 확률은 다음과 같이 체인 규칙을 사용하여 인수 화 될 수 있습니다.
문장의 시작을 나타내는 특별한 토큰은 어디에 있습니까?
실제로, 우리는 일반적으로 Markov 프로세스 가정을 사용하여 기록 컨텍스트를 제한하는 N- 그램 모델을 사용합니다. n- 그램의 예는 다음과 같습니다.
최대 가능성 기준을 사용하여 이러한 확률은 카운트를 사용하여 추정 할 수 있습니다. 예를 들어 Bigram 모델의 경우
그러나 카운트가 0이므로 확률이 정의되지 않기 때문에 보이지 않는 데이터가 있으면 이는 문제가 될 수 있습니다. 이 문제를 해결하기 위해 스무딩 기술을 사용합니다. 스무딩 기술이 다르며 우리가 사용한 기술을 보간으로 절대 할인 이라고합니다.
언어 모델의 성능을 meausre하기 위해 훈련 된 m 그램을 사용하여 테스트 코퍼스의 당혹감을 계산합니다.
모델을 Europarl 데이터 세트 (DIR data )에서 테스트했습니다.
bigrams = 130.09로 pp를 테스트하십시오
Trigrams = 94.82로 pp를 테스트하십시오