Detección del lenguaje natural para el óxido con enfoque en la simplicidad y el rendimiento.
Prueba la demostración en línea.
Ejemplo:
use whatlang :: { detect , Lang , Script } ;
fn main ( ) {
let text = "Ĉu vi ne volas eklerni Esperanton? Bonvolu! Estas unu de la plej bonaj aferoj!" ;
let info = detect ( text ) . unwrap ( ) ;
assert_eq ! ( info.lang ( ) , Lang :: Epo ) ;
assert_eq ! ( info.script ( ) , Script :: Latin ) ;
assert_eq ! ( info.confidence ( ) , 1.0 ) ;
assert ! ( info.is_reliable ( ) ) ;
}Para obtener más detalles (por ejemplo, cómo lista negra algunos idiomas), consulte la documentación.
Whatlang se usa dentro de los siguientes grandes proyectos como dependencia directa o indirecta para el reconocimiento del lenguaje. Vas a estar en una gran compañía usando Whatlang:
| Característica | Descripción |
|---|---|
enum-map | Lang y Script implementan rasgo Enum de enum-map |
arbitrary | Soporte arbitrario |
serde | Implementa Serialize y Deserialize para Lang y Script |
dev | Habilita el módulo whatlang::dev que proporciona algunas API internos.Existe para fines de perfil y se desanima a los usuarios normales a confiar en esta API. |
El algoritmo se basa en los modelos de lenguaje Trigram, que es un caso particular de N-Grams. Para comprender la idea, consulte el documento técnico original Cavnar y Trenkle '94: categorización de texto basada en N-Gram '.
is_reliable ?Se basa en los siguientes factores:
rate en la base de código.Por lo tanto, puede presentarse como espacio 2D con funciones umbral, que lo divide en áreas "confiables" y "no confiables". Esta función es una hipérbola y parece la siguiente:
Para obtener más detalles, consulte un artículo de blog Introducción a la biblioteca de Rust Watlang y los algoritmos de identificación de lenguaje natural.
make bench - Ejecutar puntos de referencia de rendimientomake doc : generar y abrir docmake test - ejecutar pruebasmake watch : ver los cambios y ejecutar pruebas | Que | CLD2 | CLD3 | |
|---|---|---|---|
| Lenguaje de implementación | Óxido | C ++ | C ++ |
| Lenguas | 68 | 83 | 107 |
| Algoritmo | trigramas | quadgramas | red neuronal |
| Codificación compatible | UTF-8 | UTF-8 | ? |
| Soporte HTML | No | Sí | ? |
Puede apoyar el proyecto donando TOKENS CERCA.
Nuestra dirección de billetera cercana es whatlang.near
Whatlang es un trabajo derivado de Franc (JavaScript, MIT) de Titus Wormer.
MIT © Sergey Potapov