DocIndex-это пакетный процесс, используемый для подачи DocMag, фронтального до Elasticsearch, который позволяет поиску документов на стороне сервера быть простым.
DocIndex может быть запущен непосредственно на ОС, однако рекомендуется работать в контейнере Docker. Контейнер состоит из Docmag Docker-Compose.yml.
Обычно вы не захотите построить и запускать DocIDX локально, вместо этого лучше всего запустить контейнер Docker, опубликованный по адресу: https://hub.docker.com/r/deckerego/docidx/
Поскольку DOCIDX в значительной степени полагается на компьютерное зрение и обработку изображений, широко используются привязки с собственными библиотеками. Упакованные распределения Java с местными библиотеками - гигантская боль в заднице - следовательно, используя контейнеры Docker, чтобы отправить вещи по умолчанию. Если вы просто хотите, чтобы DocIDX запустил Docker, будет самым простым способом, но если вы хотите настроить код и запустить его локально, вам нужно будет прыгнуть через некоторые обручи, чтобы установить местные LIBS.
DocIDX использует привязки для нативных библиотек OpenCV и Tesseract. Библиотеки OpenCV особенно чувствительны к версии. Чтобы установить нативные Libriaries TessAract в MacOS, вы можете использовать Homebrew, как в:
brew install tesseract
К сожалению, OpenCV 3.2 не строится должным образом под доморощенным. Для macOS OpenCV должен быть построен из источника. Это можно сделать с:
wget https://github.com/opencv/opencv/archive/3.2.0.tar.gz
tar xzf 3.2.0.tar.gz
mkdir opencv-3.2.0/build
cd opencv-3.2.0/build
cmake .. -DBUILD_opencv_java=ON
make
make install
Распределения Linux часто отправляются с помощью Tesseract и OpenCV 3.2, например, с Ubuntu (Bionic):
apt-get install tesseract-ocr libopencv3.2-jni
После установки собственных библиотек, строительство и тестирование можно выполнить локально с помощью Maven и Spring Boot:
mvn -DargLine="-Djava.library.path=/usr/local/share/OpenCV/java/" install
Если вы также хотите развернуть локальный экземпляр Elasticsearch и Kibana для тестирования, вы можете развернуть оба с конфигурациями Docker в tests/ каталоге:
cd tests
docker-compose up -d
Для поиска в ваших документах используйте Docmag, доступный по адресу https://github.com/deckerego/docmag
Вы также можете запросить Elasticsearch напрямую, используя инструменты API или Dev Kibana. Запрос, отправленный API, может быть:
GET /docidx/_search
{"query": { "simple_query_string" :
{ "query": "water bill" }
}}