whatlanggo
1.0.0
GO를위한 자연 언어 탐지.
설치:
go get -u github.com/abadojack/whatlanggo간단한 사용 예 :
package main
import (
"fmt"
"github.com/abadojack/whatlanggo"
)
func main () {
info := whatlanggo . Detect ( "Foje funkcias kaj foje ne funkcias" )
fmt . Println ( "Language:" , info . Lang . String (), " Script:" , whatlanggo . Scripts [ info . Script ], " Confidence: " , info . Confidence )
} package main
import (
"fmt"
"github.com/abadojack/whatlanggo"
)
func main () {
//Blacklist
options := whatlanggo. Options {
Blacklist : map [whatlanggo. Lang ] bool {
whatlanggo . Ydd : true ,
},
}
info := whatlanggo . DetectWithOptions ( "האקדמיה ללשון העברית" , options )
fmt . Println ( "Language:" , info . Lang . String (), "Script:" , whatlanggo . Scripts [ info . Script ])
//Whitelist
options1 := whatlanggo. Options {
Whitelist : map [whatlanggo. Lang ] bool {
whatlanggo . Epo : true ,
whatlanggo . Ukr : true ,
},
}
info = whatlanggo . DetectWithOptions ( "Mi ne scias" , options1 )
fmt . Println ( "Language:" , info . Lang . String (), " Script:" , whatlanggo . Scripts [ info . Script ])
}자세한 내용은 문서를 확인하십시오.
1.8 이상으로 이동하십시오
알고리즘은 N-Gram의 특정 사례 인 Trigram Language 모델을 기반으로합니다. 아이디어를 이해하려면 원래 백서 Cavnar and Trenkle '94 : N-Gram 기반 텍스트 분류 '를 확인하십시오.
다음 요소를 기반으로합니다.
rate 라고합니다.따라서 임계 값 함수가있는 2D 공간으로 제시 될 수 있으며,이를 "신뢰할 수있는"및 "신뢰할 수없는"영역으로 나눌 수 있습니다. 이 기능은 쌍곡선이며 다음과 같은 것 같습니다.
자세한 내용은 Rust Whatlang Library 및 Natural Language Identification 알고리즘에 대한 블로그 기사 소개를 확인하십시오.
MIT
Whatlanggo는 Titus Wormer의 프랑 (JavaScript, MIT)의 파생물입니다.
아이디어와 알고리즘을 얻은 곳에서 whatlang-r을 만드는 Greyblake (Potapov Sergey)에게 감사드립니다.