aspen Download - aspen Source Code Download

aspen

Autre code source

1.0.0

Télécharger

Tremble

Aspen vous permet de rechercher un grand corpus de fichiers en texte brut via le navigateur.

Prise en charge de la requête de recherche puissante via la syntaxe des chaînes de requête Elasticsearch
Effectue un nettoyage de base des données en texte en clair et peut extraire les titres de documents
UI réactif qui fonctionne sur mobile
Coure dans Docker

Débutant à l'aide de Docker Compose

1. Recueillir vos documents

Mettez tous vos fichiers en un seul endroit, comme ~/ebooks/ :

 $ tree ~/ebooks
/Users/ian/ebooks
└── Project Gutenberg/
    ├── Beowulf.txt
    ├── Dracula.txt
    ├── Frankenstein.txt

2. Exécutez Aspen & Elasticsearch

 $ docker-compose up -d
Creating network "aspen_default" with the default driver
Creating elasticsearch ... done
Creating aspen         ... done

3. Convertir tous les documents non PlainText (PDFS, MS Word) en texte en clair

Utilisez l'utilitaire convert inclus, qui enveloppe Apache Tika, pour les convertir en texte en clair. Passez-le un nom de fichier par rapport à votre répertoire de données:

 $ ls ~/ebooks
Project Gutenberg Test.docx

$ docker-compose run aspen convert Test.docx
Starting elasticsearch ... done
Test.docx doesn't exist, trying /data/Test.docx
Creating /data/Test.txt...
...
OK

$ ls ~/ebooks
Project Gutenberg Test.docx         Test.txt

4. Importer du contenu dans Elasticsearch

Commencez par réinitialiser Elasticsearch pour vous assurer que tout fonctionne:

 $ docker-compose run aspen es-reset
Starting elasticsearch ... done
Results from DELETE: { acknowledged: true }
✓ Done.

Importez maintenant tous les documents .txt . Le script import essaiera de déterminer automatiquement le titre du document:

 $ docker-compose run aspen import
Starting elasticsearch ... done
→ Base directory is /app/public/data
▲ Ignoring non-text path: Test.docx
→ Test.txt → Test Document
→ Project Gutenberg/Beowulf.txt → The Project Gutenberg EBook of Beowulf
→ Project Gutenberg/Dracula.txt → The Project Gutenberg EBook of Dracula, by Bram Stoker
→ Project Gutenberg/Frankenstein.txt → Project Gutenberg's Frankenstein, by Mary Wollstonecraft (Godwin) Shelley
✓ Done!

Vous pouvez également exécuter import avec un répertoire ou un nom de fichier par rapport au répertoire de données. Par exemple, import Project Gutenberg ou import Project GutenbergDracula.txt .

Parfois, les documents en texte clair agissent étrangement. Peut-être que bin/import ne peut pas extraire un titre ou peut-être que les reflets de recherche sont désactivés. Le fichier peut avoir les mauvaises terminaisons de ligne ou l'un de ces en-têtes BOM UTF-8 ennuyeux. Essayez d'exécuter Dos2Unix sur vos fichiers texte pour les réparer.

5. Fait!

Allez sur http: // localhost: 3000 / et commencez à rechercher!

Configuration du développement

1. Installez les dépendances

Il est plus facile d'utiliser Elasticsearch via Docker.

Vous pouvez obtenir du nœud et du fil via Homebrew sur Mac, ou vous pouvez télécharger Node.js V8.5 ou version ultérieure et npm install -g yarn pour obtenir du fil.

Pour la conversation de document ( bin/convert ), vous voudrez:

Apache Tika
Unmutf
Par

Sur macOS, vous pouvez brew install node tika unrtf par .

2. Clone le repo

 $ git clone [email protected]:statico/aspen.git
$ cd aspen
$ yarn install

3. Configurez Elasticsearch et importez vos données

Voir les étapes 1 à 4 dans la section "Utilisation de Docker" ci-dessus. En bref, rassemblez vos fichiers texte en un seul endroit, configurez Elasticsearch et importez-les avec la commande bin/import .

4. Démarrez l'application Web

Aspen est construit à l'aide de Next.js, qui est Node + ES6 + Express + React + Rechargement chaud + beaucoup plus. Courez simplement:

 $ yarn run dev

... et allez sur http: // localhost: 3000

Si vous travaillez sur server.js et souhaitez redémarrer le serveur automatique, faites:

 $ yarn global add nodemon
$ nodemon -w server.js -w lib -x yarn -- run dev

Notes de développement

Cela a commencé comme un exemple angulaire 1 + CoffeeScript. Je l'ai récemment migré pour utiliser Next.js, ES6 et React. Vous pouvez voir un diff complet ici.
J'utilise toujours Elasticsearch 1.7 parce que je n'ai pas pris la peine d'apprendre les nouvelles versions.

Links

Guide Elasticsearch
Elasticsearch 1.7 Référence
commandement tree

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-03-10
taille 346.41KB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout