Китайская модель данных предоставлена для Spacy. Модель в настоящее время находится в бета -общественном тестировании.
Онлайн -демонстрация на основе ноутбука Юпитера.
Некоторая информация об атрибутах этого объекта Doc王小明在北京的清华大学读书:

Некоторые из NER Информации о Doc王小明在北京的清华大学读书:

Модель распространяется в форме двоичных файлов, и пользователи должны обладать базовыми знаниями о Spacy (версия> 2).
Python 3 (возможно, поддержите Python2, но не хорошо протестирован)
Загрузите модель со страницы релизов ( New! Предоставляет пользователям в Китае ссылки на ускорение загрузки). Предположим, загруженная модель называется zh_core_web_sm-2.xxtar.gz .
pip install zh_core_web_sm-2.x.x.tar.gz
Чтобы облегчить последующее использование в рамках, таких как RASA NLU, необходимо установить ссылку для этой модели, выполнив следующую команду:
spacy link zh_core_web_sm zhПосле завершения прогона вы можете использовать псевдоним ZH для доступа к модели.
Демо -код расположен в test.py После установки модели пользователь загружает или клонирует код в этом репозитории, а затем может выполнить его напрямую.
python3 ./test.py Откройте адрес http://127.0.0.1:5000 , и вы увидите следующее:

Смотрите рабочий процесс
Корпус, используемый в этом проекте, является Ontonotes 5.0.
Поскольку Ontonotes 5.0 является защищенным авторским правом материала НРС (лингвистический консорциум данных), он не может быть непосредственно включен в этот проект. Хорошей новостью является то, что Ontonotes 5.0 полностью бесплатна для пользователей групп, включая предприятия и академические организации. Пользователи могут создать учетную запись корпоративной или академической организации, а затем бесплатно получить Ontonotes 5.0.
pos_ неверен. Это связано с классом китайского языка в Spacy.shape_ и is_alpha кажется, бессмысленно для китайцев, но ей нужна авторитетная информация, чтобы подтвердить ее.is_stop неверен. Это связано с классом китайского языка в Spacy.vector атрибутов, кажется, не хорошо обучен.is_oov совершенно неверно. Первое приоритетное исправление.Пожалуйста, прочитайте Anforming.md и отправьте нам запросы на привлечение.
Мы используем SEMVER для стандартов управления версиями. Проверьте tags , чтобы понять все версии.
Для получения дополнительной информации о участниках, пожалуйста, обратитесь к contributors .
Лицензия MIT - см. License.md для получения подробной информации