aspen Download - aspen Source Code Download

aspen

Anderer Quellcode

1.0.0

Herunterladen

Espe

Mit Aspen können Sie einen großen Korpus von Klartextdateien über den Browser durchsuchen.

Leistungsstarke Suchabfrage Support über Elasticsearch Query String Syntax
Führt eine grundlegende Reinigung von Klartextdaten durch und kann Dokumenttitel extrahieren
Reaktionsschnelle Benutzeroberfläche, die auf Mobilgeräten funktioniert
Läuft in Docker

Erste Schritte mit Docker Compose

1. Sammeln Sie Ihre Dokumente

Stellen Sie alle Ihre Dateien an einem Ort ein, wie ~/ebooks/ :

 $ tree ~/ebooks
/Users/ian/ebooks
└── Project Gutenberg/
    ├── Beowulf.txt
    ├── Dracula.txt
    ├── Frankenstein.txt

2. Führen Sie Aspen & Elasticsearch aus

 $ docker-compose up -d
Creating network "aspen_default" with the default driver
Creating elasticsearch ... done
Creating aspen         ... done

3.. Konvertieren Sie alle Nicht-Plaintext-Dokumente (PDFS, MS-Word) in Klartext

Verwenden Sie das mitgelieferte convert , das Apache Tika umrundet, um sie in Klartext umzuwandeln. Übergeben Sie es einen Dateinamen in Bezug auf Ihr Datenverzeichnis:

 $ ls ~/ebooks
Project Gutenberg Test.docx

$ docker-compose run aspen convert Test.docx
Starting elasticsearch ... done
Test.docx doesn't exist, trying /data/Test.docx
Creating /data/Test.txt...
...
OK

$ ls ~/ebooks
Project Gutenberg Test.docx         Test.txt

4. Importieren Sie Inhalte in Elasticsearch

Beginnen Sie mit der Zurücksetzung von Elasticsearch, um sicherzustellen, dass alles funktioniert:

 $ docker-compose run aspen es-reset
Starting elasticsearch ... done
Results from DELETE: { acknowledged: true }
✓ Done.

Importieren Sie nun alle .txt -Dokumente. Das import wird versucht, den Titel des Dokuments automatisch herauszufinden:

 $ docker-compose run aspen import
Starting elasticsearch ... done
→ Base directory is /app/public/data
▲ Ignoring non-text path: Test.docx
→ Test.txt → Test Document
→ Project Gutenberg/Beowulf.txt → The Project Gutenberg EBook of Beowulf
→ Project Gutenberg/Dracula.txt → The Project Gutenberg EBook of Dracula, by Bram Stoker
→ Project Gutenberg/Frankenstein.txt → Project Gutenberg's Frankenstein, by Mary Wollstonecraft (Godwin) Shelley
✓ Done!

Sie können import auch mit einem Verzeichnis oder Dateinamen relativ zum Datenverzeichnis ausführen. import Project Gutenberg oder import Project GutenbergDracula.txt .

Manchmal handeln Klartextdokumente seltsam. Vielleicht kann bin/import keinen Titel extrahieren oder die Suchhighlights sind ausgeschaltet. Die Datei hat möglicherweise die falschen Zeilenende oder eine dieser nervigen UTF-8-BOM-Header. Versuchen Sie, DOS2Unix in Ihren Textdateien auszuführen, um sie zu beheben.

5. fertig!

Gehen Sie zu http: // localhost: 3000/und beginnen Sie mit der Suche!

Entwicklungsaufbau

1. Installieren Sie Abhängigkeiten

Es ist am einfachsten, Elasticsearch über Docker zu verwenden.

Sie können Node und Garn über Homebrew auf dem Mac erhalten oder node.js v8.5 oder höher und npm install -g yarn um Garn zu erhalten.

Für Dokumentkonversation ( bin/convert ) möchten Sie:

Apache Tika
UNRTF
Par

Auf macOS können Sie brew install node tika unrtf par .

2. Klonen Sie das Repo

 $ git clone [email protected]:statico/aspen.git
$ cd aspen
$ yarn install

3. Richten Sie Elasticsearch ein und importieren Sie Ihre Daten

Siehe Schritte 1-4 im obigen Abschnitt "Mit Docker". Kurz gesagt, rufen Sie Ihre Textdateien an einem Ort zusammen, richten Sie Elasticsearch ein und importieren Sie sie mit dem Befehl bin/import .

4. Starten Sie die Web -App

Aspen wird unter Verwendung von Next.js erstellt, das Knoten + ES6 + Express + React + Hot Reloading + vieles mehr ist. Einfach rennen:

 $ yarn run dev

... und gehen Sie zu http: // localhost: 3000

Wenn Sie auf server.js arbeiten und automatischen Server neu starten möchten, tun Sie:

 $ yarn global add nodemon
$ nodemon -w server.js -w lib -x yarn -- run dev

Entwicklungsnotizen

Dies begann als Angular 1 + CoffeeScript -Beispiel. Ich habe es kürzlich migriert, um Next.js, ES6 und React zu verwenden. Sie können hier einen vollständigen Unterschied anzeigen.
Ich benutze Elasticsearch 1.7 immer noch, weil ich mir nicht die Mühe gemacht habe, die neueren Versionen zu lernen.

Links

Elasticsearch Guide
Elasticsearch 1.7 Referenz
tree

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-03-10
Größe 346.41KB
Kommt von Github

Ähnliche Anwendungen

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

aspen

Espe

Erste Schritte mit Docker Compose

1. Sammeln Sie Ihre Dokumente

2. Führen Sie Aspen & Elasticsearch aus

3.. Konvertieren Sie alle Nicht-Plaintext-Dokumente (PDFS, MS-Word) in Klartext

4. Importieren Sie Inhalte in Elasticsearch

5. fertig!

Entwicklungsaufbau

1. Installieren Sie Abhängigkeiten

2. Klonen Sie das Repo

3. Richten Sie Elasticsearch ein und importieren Sie Ihre Daten

4. Starten Sie die Web -App

Entwicklungsnotizen

Links

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express