Обнаружение естественного языка для ржавчины с акцентом на простоту и производительность.
Попробуйте онлайн демо.
Пример:
use whatlang :: { detect , Lang , Script } ;
fn main ( ) {
let text = "Ĉu vi ne volas eklerni Esperanton? Bonvolu! Estas unu de la plej bonaj aferoj!" ;
let info = detect ( text ) . unwrap ( ) ;
assert_eq ! ( info.lang ( ) , Lang :: Epo ) ;
assert_eq ! ( info.script ( ) , Script :: Latin ) ;
assert_eq ! ( info.confidence ( ) , 1.0 ) ;
assert ! ( info.is_reliable ( ) ) ;
}Для получения более подробной информации (например, как черный список некоторых языков), пожалуйста, проверьте документацию.
WhatLang используется в рамках следующих крупных проектов в качестве прямой или косвенной зависимости для распознавания языка. Ты будешь в отличной компании, используя Whatlang:
| Особенность | Описание |
|---|---|
enum-map | Lang и Script Реализация Enum Trate от Enum-Map |
arbitrary | Поддержка произвольной |
serde | Реализует Serialize и Deserialize для Lang и Script |
dev | Включает модуль whatlang::dev , который обеспечивает некоторый внутренний API.Он существует в целях профилирования, и обычным пользователям не нужно полагаться на этот API. |
Алгоритм основан на моделях языка триграмм, что является конкретным случаем N-граммов. Чтобы понять эту идею, пожалуйста, проверьте оригинальную категоризацию текста на основе n-грамма.
is_reliable ?Он основан на следующих факторах:
rate в базе кода.Следовательно, он может быть представлен как 2D -пространство с пороговыми функциями, которые разматывают его в «надежные» и «не надежные» области. Эта функция является гиперболой, и она выглядит как следующая:
Для получения более подробной информации, пожалуйста, проверьте статью в блоге, введение в алгоритмы библиотеки Rust Watlang и естественного языка.
make bench - запустить тесты производительностиmake doc - генерировать и открыть документmake test - запустить тестыmake watch - смотреть изменения и запустить тесты | Whatlang | CLD2 | CLD3 | |
|---|---|---|---|
| Язык реализации | Ржавчина | C ++ | C ++ |
| Языки | 68 | 83 | 107 |
| Алгоритм | Триграммы | квадроциклы | Нейронная сеть |
| Поддерживается кодирование | UTF-8 | UTF-8 | ? |
| HTML -поддержка | нет | да | ? |
Вы можете поддержать проект, пожертвовав рядом с жетонами.
Наш ближайший кошелек - whatlang.near
Whatlang - это производная работа от Franc (JavaScript, MIT) Тита Уормера.
MIT © Sergey Potapov