DocIndex adalah proses batch yang digunakan untuk memberi makan DOCMAG, front-end ke Elasticsearch yang memungkinkan pencarian dokumen sisi server menjadi sederhana.
DocIndex dapat dijalankan langsung pada OS, namun disarankan untuk dijalankan dalam wadah Docker. Wadah ini disusun dalam DocMag Docker-Compose.yml.
Biasanya Anda tidak ingin membangun dan menjalankan Docidx secara lokal, sebaliknya adalah yang terbaik untuk menjalankan wadah Docker yang diterbitkan di: https://hub.docker.com/r/deckerego/docidx/
Karena DOCIDX sangat bergantung pada visi komputer dan pemrosesan gambar, binding ke perpustakaan asli banyak digunakan. Distribusi Java yang dikemas dengan perpustakaan asli adalah rasa sakit raksasa di pantat - karenanya memanfaatkan wadah Docker untuk mengirimkan barang secara default. Jika Anda hanya ingin membuat Docidx naik dan menjalankan Docker akan menjadi cara termudah untuk pergi, tetapi jika Anda ingin mengubah kode dan menjalankannya secara lokal, Anda harus melompati beberapa lingkaran untuk menginstal lib asli.
DOCIDX menggunakan binding untuk perpustakaan asli OpenCV dan Tesseract. Perpustakaan OpenCV sangat sensitif terhadap versi. Untuk memasang libriaries TesseAract asli di macOS, Anda dapat menggunakan homebrew, seperti dalam:
brew install tesseract
Sayangnya OpenCV 3.2 tidak dibangun dengan benar di bawah homebrew. Untuk macOS, OpenCV perlu dibangun dari sumber. Ini bisa dilakukan dengan:
wget https://github.com/opencv/opencv/archive/3.2.0.tar.gz
tar xzf 3.2.0.tar.gz
mkdir opencv-3.2.0/build
cd opencv-3.2.0/build
cmake .. -DBUILD_opencv_java=ON
make
make install
Distribusi Linux sering dikirimkan dengan Tesseract dan Opencv 3.2, seperti dengan Ubuntu (Bionic):
apt-get install tesseract-ocr libopencv3.2-jni
Setelah perpustakaan asli diinstal, membangun dan menguji dapat dilakukan secara lokal dengan Maven dan Spring Boot:
mvn -DargLine="-Djava.library.path=/usr/local/share/OpenCV/java/" install
Jika Anda juga ingin memutar instance Elasticsearch dan Kibana lokal untuk pengujian, Anda dapat menggunakan keduanya dengan konfigurasi Docker di tests/ direktori:
cd tests
docker-compose up -d
Untuk mencari di dalam dokumen Anda, gunakan DocMag yang tersedia di https://github.com/deckerego/docmag
Anda juga dapat menanyakan Elasticsearch secara langsung menggunakan API atau alat pengembang Kibana. Kueri yang dikirim atas API mungkin:
GET /docidx/_search
{"query": { "simple_query_string" :
{ "query": "water bill" }
}}