Согласно журналу Computer World, неструктурированные текстовые данные учитывают примерно 70% -80% всех данных в организации. Наиболее распространенный подход к использованию текстовых ресурсов компании состоит в том, чтобы сделать его доступным для поиска с помощью поисковой системы. Хотя это само по себе является огромным шагом вперед, есть гораздо больше, что можно сделать, чтобы извлечь дальнейшее понимание из текста. В этом уроке мы рассмотрим извлечение ключевых слов и других функций из текста, используя известные статистические и готовые методы машинного обучения, улучшая как поиск контента, так и обнаружение в процессе. Наконец, мы объединяем эти темы, чтобы создать онтологию и простую систему рекомендаций. Мы будем использовать SOLR 7.X в качестве нашей платформы индексации и набор данных NIPS Papers, коллекцию из более чем 7000 статей из конференции по обработке нейронной информации с 1987 по 2017 год, как наш корпус. Учебное пособие довольно тяжело и основано на питоне, и, хотя знание Python не требуется, знакомство с языком программирования было бы очень желательным.
Пожалуйста, обратитесь к данным/readme.md и моделям/readme.md, чтобы загрузить набор данных и сторонние модели.
Также обратитесь к требованиям. Код был построен с использованием Anaconda Python3, в котором уже есть много (не все) из этих уже установленных библиотек. Единственным, что я не мог приступить к работе, была библиотека Dedupe, которую мне пришлось установить на отдельную установку Anaconda Python 2.
Наконец, ноутбуки и веб -приложение используют SOLR 7.X в качестве бэкэнда поиска, поэтому вам нужно это установить. Чтобы запустить Solr, перейдите в Home Directory Solr и запустите следующую команду. Консоль Solr можно получить из вашего браузера по адресу http: // localhost: 8983.
cd <solr_home>
bin/solr start
Кодовая база состоит из набора ноутбуков в папке ноутбуков и веб -приложения на основе колбы в папке WebTool, которая обеспечивает переднюю часть, чтобы продемонстрировать применение выходов различных методов контента по индексу поиска, содержащего документы NIPS.
Чтобы запустить сервер ноутбуков, перейдите в подкаталог ноутбуков, а затем запустите следующую команду. По умолчанию URL -адрес по умолчанию для перемещения в браузере для доступа к ноутбукам - http: // localhost: 8888/. Вы также можете найти URL из журналов сервера, которые записаны на консоли.
cd <project_home>/notebooks
jupyter notebook
Чтобы запустить веб -приложение, перейдите в подкаталог WebTool, затем запустите следующую команду. Веб -приложение начнет прослушивание на порту 5000. Чтобы добраться до приложения из вашего браузера, перейти на http: // localhost: 5000.
cd <project_home>/webtool
python webtool.py