Aspen ให้คุณค้นหาคลังข้อมูลขนาดใหญ่ของไฟล์ข้อความธรรมดาผ่านเบราว์เซอร์
ใส่ไฟล์ทั้งหมดของคุณในที่เดียวเช่น ~/ebooks/ :
$ tree ~/ebooks
/Users/ian/ebooks
└── Project Gutenberg/
├── Beowulf.txt
├── Dracula.txt
├── Frankenstein.txt
$ docker-compose up -d
Creating network "aspen_default" with the default driver
Creating elasticsearch ... done
Creating aspen ... done
ใช้ยูทิลิตี้ convert ที่รวมอยู่ซึ่งห่อหุ้ม Apache tika เพื่อแปลงเป็นข้อความธรรมดา ส่งผ่านชื่อไฟล์ที่สัมพันธ์กับไดเรกทอรีข้อมูลของคุณ:
$ ls ~/ebooks
Project Gutenberg Test.docx
$ docker-compose run aspen convert Test.docx
Starting elasticsearch ... done
Test.docx doesn't exist, trying /data/Test.docx
Creating /data/Test.txt...
...
OK
$ ls ~/ebooks
Project Gutenberg Test.docx Test.txt
เริ่มต้นด้วยการรีเซ็ต Elasticsearch เพื่อให้แน่ใจว่าทุกอย่างทำงานได้:
$ docker-compose run aspen es-reset
Starting elasticsearch ... done
Results from DELETE: { acknowledged: true }
✓ Done.
ตอนนี้นำเข้าเอกสาร. .txt ทั้งหมด สคริปต์ import จะพยายามหาชื่อของเอกสารโดยอัตโนมัติ:
$ docker-compose run aspen import
Starting elasticsearch ... done
→ Base directory is /app/public/data
▲ Ignoring non-text path: Test.docx
→ Test.txt → Test Document
→ Project Gutenberg/Beowulf.txt → The Project Gutenberg EBook of Beowulf
→ Project Gutenberg/Dracula.txt → The Project Gutenberg EBook of Dracula, by Bram Stoker
→ Project Gutenberg/Frankenstein.txt → Project Gutenberg's Frankenstein, by Mary Wollstonecraft (Godwin) Shelley
✓ Done!
นอกจากนี้คุณยังสามารถเรียกใช้ import ด้วยไดเรกทอรีหรือชื่อไฟล์ที่สัมพันธ์กับไดเรกทอรีข้อมูล ตัวอย่างเช่น import Project Gutenberg หรือ import Project GutenbergDracula.txt
บางครั้งเอกสารธรรมดาทำหน้าที่แปลก ๆ บางที bin/import ไม่สามารถแยกชื่อเรื่องหรืออาจจะปิดไฮไลท์การค้นหา ไฟล์อาจมีจุดสิ้นสุดของบรรทัดที่ไม่ถูกต้องหรือหนึ่งในส่วนหัว BOM UTF-8 ที่น่ารำคาญ ลองรัน Dos2Unix บนไฟล์ข้อความของคุณเพื่อแก้ไข
ไปที่ http: // localhost: 3000/และเริ่มค้นหา!
มันง่ายที่สุดในการใช้ Elasticsearch ผ่าน Docker
คุณสามารถรับโหนดและเส้นด้ายผ่าน Homebrew บน Mac หรือคุณสามารถดาวน์โหลด node.js v8.5 หรือใหม่กว่าและ npm install -g yarn เพื่อรับเส้นด้าย
สำหรับการสนทนาเอกสาร ( bin/convert ) คุณต้องการ:
บน macOS คุณสามารถ brew install node tika unrtf par
$ git clone [email protected]:statico/aspen.git
$ cd aspen
$ yarn install
ดูขั้นตอนที่ 1-4 ในส่วน "โดยใช้ Docker" ด้านบน กล่าวโดยย่อให้รวบรวมไฟล์ข้อความของคุณเข้าด้วยกันในที่เดียวตั้งค่า Elasticsearch และนำเข้าด้วยคำสั่ง bin/import
Aspen ถูกสร้างขึ้นโดยใช้ next.js ซึ่งเป็น Node + ES6 + Express + React + Hot Reloading + อีกมากมาย เพียงแค่วิ่ง:
$ yarn run dev
... และไปที่ http: // localhost: 3000
หากคุณกำลังทำงานบน server.js และต้องการการรีสตาร์ทเซิร์ฟเวอร์อัตโนมัติให้ทำ:
$ yarn global add nodemon
$ nodemon -w server.js -w lib -x yarn -- run dev
tree