การตรวจจับภาษาธรรมชาติสำหรับการเกิดสนิมโดยมุ่งเน้นไปที่ความเรียบง่ายและประสิทธิภาพ
ลองสาธิตออนไลน์
ตัวอย่าง:
use whatlang :: { detect , Lang , Script } ;
fn main ( ) {
let text = "Ĉu vi ne volas eklerni Esperanton? Bonvolu! Estas unu de la plej bonaj aferoj!" ;
let info = detect ( text ) . unwrap ( ) ;
assert_eq ! ( info.lang ( ) , Lang :: Epo ) ;
assert_eq ! ( info.script ( ) , Script :: Latin ) ;
assert_eq ! ( info.confidence ( ) , 1.0 ) ;
assert ! ( info.is_reliable ( ) ) ;
}สำหรับรายละเอียดเพิ่มเติม (เช่นวิธีการขึ้นบัญชีดำบางภาษา) โปรดตรวจสอบเอกสาร
Whatlang ใช้ภายในโครงการขนาดใหญ่ต่อไปนี้เป็นการพึ่งพาโดยตรงหรือโดยอ้อมสำหรับการจดจำภาษา คุณจะอยู่ใน บริษัท ที่ยอดเยี่ยมโดยใช้ Whatlang:
| คุณสมบัติ | คำอธิบาย |
|---|---|
enum-map | Lang และ Script ใช้คุณสมบัติ Enum จาก enum-map |
arbitrary | สนับสนุนโดยพลการ |
serde | ดำเนินการ Serialize และ Deserialize สำหรับ Lang และ Script |
dev | เปิดใช้งานโมดูล whatlang::dev ซึ่งให้ API ภายในมันมีอยู่เพื่อจุดประสงค์ในการทำโปรไฟล์และผู้ใช้ปกติจะไม่ยอมพึ่งพา API นี้ |
อัลกอริทึมขึ้นอยู่กับโมเดลภาษา Trigram ซึ่งเป็นกรณีเฉพาะของ N-grams เพื่อทำความเข้าใจความคิดโปรดตรวจสอบ whitepaper ต้นฉบับ Cavnar และ Trenkle '94: การจัดหมวดหมู่ข้อความที่ใช้ N-Gram '
is_reliable คำนวณได้อย่างไร?มันขึ้นอยู่กับปัจจัยต่อไปนี้:
rate ในฐานรหัสดังนั้นจึงสามารถนำเสนอเป็นพื้นที่ 2D ที่มีฟังก์ชั่นเกณฑ์ที่แยกออกเป็นพื้นที่ "เชื่อถือได้" และ "ไม่น่าเชื่อถือ" ฟังก์ชั่นนี้เป็นไฮเพอร์โบลาและดูเหมือนว่าต่อไปนี้:
สำหรับรายละเอียดเพิ่มเติมโปรดตรวจสอบบทความบล็อกบทนำสู่ห้องสมุด Rust Whatlang และอัลกอริทึมการระบุภาษาธรรมชาติ
make bench มาร์กประสิทธิภาพmake doc - สร้างและเปิดเอกสารmake test - เรียกใช้การทดสอบmake watch - ดูการเปลี่ยนแปลงและเรียกใช้การทดสอบ | Whatlang | CLD2 | CLD3 | |
|---|---|---|---|
| ภาษาการใช้งาน | สนิม | C ++ | C ++ |
| ภาษา | 68 | 83 | 107 |
| อัลกอริทึม | ตรัม | รูปสี่เท่า | เครือข่ายประสาท |
| การเข้ารหัสที่รองรับ | UTF-8 | UTF-8 | - |
| การสนับสนุน HTML | เลขที่ | ใช่ | - |
คุณสามารถสนับสนุนโครงการได้โดยบริจาคโทเค็นใกล้
ที่อยู่ใกล้กับกระเป๋าเงินของเราคือ whatlang.near
Whatlang เป็นงานอนุพันธ์จาก Franc (JavaScript, MIT) โดย Titus Wormer
MIT © Sergey Potapov