Загрузка ChineseNER - загрузка исходного кода ChineseNER

ChineseNER

Питон

1.0.0

Скачать

Chinesener

Этот проект использует

Python 2.7
Tensorflow 1.7.0
Pytorch 0.4.0

Если вы не понимаете признание именного признания, вы можете сначала прочитать эту статью. Кстати, пожалуйста, звезда ~

Это самый простой способ идентифицировать модель Bilstm+CRF для названной сущности.

данные

В папке данных доступно три набора данных с открытым исходным кодом: Data Data Boson (https://bosonnlp.com), ежедневные данные о людях с маркировкой людей и MSRA Microsoft Asia Research Institute Institute с открытым исходным кодом. Среди них есть 6 типов объектов в наборе данных бозон. Daily's Daily Corpus и MSRA, как правило, извлекают только три типа организации: название человека, название места и название организации.

Сначала запустите файл Python в данных, чтобы обработать данные для использования модели.

Tensorflow версия

Начать обучение

Начните обучение с python train.py , и обученная модель будет сохранена в папке модели.

Используйте предварительно обученные векторы слов

Использование python train.py pretrained начнет подготовку с помощью предварительных векторов слов. VEC.TXT - это меньший предварительный вектор слов, найденный в Интернете. Вы можете обратиться к моему коду, чтобы изменить его на использование других лучших предварительно предварительно проведенных векторов Word.

Проверьте обученную модель

Используйте python train.py test для тестирования, и последняя модель в папке модели будет автоматически прочитать и введите китайский язык для тестирования. Качество результатов теста зависит от точности модели.

Уровень объекта на уровне файлов

Используйте python train.py input_file output_file для извлечения объекта на уровне файлов.

Он может автоматически читать последнюю модель в папке модели, извлечь объекты в input_file и записать их в output_file . Сначала существует первоначальное предложение, затем тип объекта и сущность (может быть изменен по мере необходимости).

Например, python train.py test1.txt res.txt , res.txt Content выглядит следующим образом:

Время от времени добавляются дополнительные модификации. Полем

версия Pytorch

Используйте модель Bilstm+CRF в уроке Pytorch напрямую.

Просто запустите Train.py Training. Поскольку мы используем процессор и не используем партию, скорость тренировок очень медленная. Если вы хотите просто запустить код, рекомендуется использовать только некоторые данные для его запуска. Pytorch не будет обновляться на данный момент.

Точность

Параметры не были скорректированы слишком тщательно. Значение F набора данных бозона составляло около 70%~ 75%, а значение F наборов данных на людей и MSRA составляло около 85%~ 90%. (В конце концов, бозон имеет 6 типов объектов, а два других имеют только 3 типа)