Aspen le permite buscar un gran corpus de archivos de texto sin formato a través del navegador.
Coloque todos sus archivos en un solo lugar, como ~/ebooks/ :
$ tree ~/ebooks
/Users/ian/ebooks
└── Project Gutenberg/
├── Beowulf.txt
├── Dracula.txt
├── Frankenstein.txt
$ docker-compose up -d
Creating network "aspen_default" with the default driver
Creating elasticsearch ... done
Creating aspen ... done
Use la utilidad convert incluida, que envuelve Apache Tika, para convertirlos en texto sin formato. Pase un nombre de archivo en relación con su directorio de datos:
$ ls ~/ebooks
Project Gutenberg Test.docx
$ docker-compose run aspen convert Test.docx
Starting elasticsearch ... done
Test.docx doesn't exist, trying /data/Test.docx
Creating /data/Test.txt...
...
OK
$ ls ~/ebooks
Project Gutenberg Test.docx Test.txt
Comience reiniciando ElasticSearch para asegurarse de que todo esté funcionando:
$ docker-compose run aspen es-reset
Starting elasticsearch ... done
Results from DELETE: { acknowledged: true }
✓ Done.
Ahora importe todos los documentos .txt . El script import intentará descubrir el título del documento automáticamente:
$ docker-compose run aspen import
Starting elasticsearch ... done
→ Base directory is /app/public/data
▲ Ignoring non-text path: Test.docx
→ Test.txt → Test Document
→ Project Gutenberg/Beowulf.txt → The Project Gutenberg EBook of Beowulf
→ Project Gutenberg/Dracula.txt → The Project Gutenberg EBook of Dracula, by Bram Stoker
→ Project Gutenberg/Frankenstein.txt → Project Gutenberg's Frankenstein, by Mary Wollstonecraft (Godwin) Shelley
✓ Done!
También puede ejecutar import con un directorio o nombre de archivo relativo al directorio de datos. Por ejemplo, import Project Gutenberg o import Project GutenbergDracula.txt .
A veces, los documentos de texto sin formato actúan de manera extraña. Tal vez bin/import no puede extraer un título o tal vez los aspectos destacados de la búsqueda están desactivados. El archivo puede tener las terminaciones de línea incorrectas o una de esos molestos encabezados de BOM UTF-8. Intente ejecutar DOS2UNIX en sus archivos de texto para solucionarlos.
Vaya a http: // localhost: 3000/y comience a buscar!
Es más fácil usar Elasticsearch a través de Docker.
Puede obtener el nodo y el hilo a través de Homebrew en Mac, o puede descargar Node.js V8.5 o posterior e npm install -g yarn para obtener hilo.
Para la conversación de documento ( bin/convert ) que querrá:
En MacOS puede brew install node tika unrtf par .
$ git clone [email protected]:statico/aspen.git
$ cd aspen
$ yarn install
Consulte los pasos 1-4 en la sección "Usando Docker" anterior. En resumen, reúna sus archivos de texto en un solo lugar, configure Elasticsearch e importarlos con el comando bin/import .
Aspen se construye usando Next.js, que es Node + ES6 + Express + React + Hot Reloading + Lots más. Simplemente ejecute:
$ yarn run dev
... y vaya a http: // localhost: 3000
Si está trabajando en server.js y desea reiniciar el servidor automático, haga:
$ yarn global add nodemon
$ nodemon -w server.js -w lib -x yarn -- run dev
tree