Deteksi bahasa alami untuk karat dengan fokus pada kesederhanaan dan kinerja.
Coba demo online.
Contoh:
use whatlang :: { detect , Lang , Script } ;
fn main ( ) {
let text = "Ĉu vi ne volas eklerni Esperanton? Bonvolu! Estas unu de la plej bonaj aferoj!" ;
let info = detect ( text ) . unwrap ( ) ;
assert_eq ! ( info.lang ( ) , Lang :: Epo ) ;
assert_eq ! ( info.script ( ) , Script :: Latin ) ;
assert_eq ! ( info.confidence ( ) , 1.0 ) ;
assert ! ( info.is_reliable ( ) ) ;
}Untuk detail lebih lanjut (misalnya cara membuat daftar hitam beberapa bahasa) silakan periksa dokumentasinya.
Whatlang digunakan dalam proyek -proyek besar berikut sebagai ketergantungan langsung atau tidak langsung untuk pengakuan bahasa. Anda akan berada di perusahaan hebat menggunakan Whatlang:
| Fitur | Keterangan |
|---|---|
enum-map | Lang dan Script mengimplementasikan sifat Enum dari enum-map |
arbitrary | Dukungan sewenang -wenang |
serde | Mengimplementasikan Serialize dan Deserialize untuk Lang dan Script |
dev | Mengaktifkan whatlang::dev Modul yang menyediakan beberapa API internal.Itu ada untuk tujuan profil dan pengguna normal berkecil hati untuk mengandalkan API ini. |
Algoritma ini didasarkan pada model bahasa Trigram, yang merupakan kasus khusus N-gram. Untuk memahami idenya, silakan periksa Whitepaper Cavnar dan Trenkle '94: kategorisasi teks berbasis N-gram '.
is_reliable dihitung?Ini didasarkan pada faktor -faktor berikut:
rate dalam basis kode.Oleh karena itu, dapat disajikan sebagai ruang 2D dengan fungsi ambang batas, yang membagi menjadi area yang "andal" dan "tidak dapat diandalkan". Fungsi ini adalah hiperbola dan sepertinya yang berikut:
Untuk detail lebih lanjut, silakan periksa Artikel Blog Pengantar Perpustakaan Rust Whatlang dan Algoritma Identifikasi Bahasa Alami.
make bench - jalankanmake doc - buat dan buka dokumenmake test - Jalankan Tesmake watch - Tonton Perubahan dan Jalankan Tes | Whatlang | Cld2 | Cld3 | |
|---|---|---|---|
| Bahasa implementasi | Karat | C ++ | C ++ |
| Bahasa | 68 | 83 | 107 |
| Algoritma | Trigram | quadgrams | jaringan saraf |
| Pengkodean yang didukung | UTF-8 | UTF-8 | ? |
| Dukungan HTML | TIDAK | Ya | ? |
Anda dapat mendukung proyek dengan menyumbang dekat token.
Alamat dompet dekat kami adalah whatlang.near
Whatlang adalah karya turunan dari Franc (JavaScript, MIT) oleh Titus Wormer.
MIT © Sergey Potapov