aspen

aspen

Outro código-fonte

1.0.0

Baixar

Aspen

Aspen permite pesquisar um grande corpus de arquivos de texto simples através do navegador.

Suporte poderoso de consulta de pesquisa por meio da sintaxe de string de consulta Elasticsearch
Executa uma limpeza básica de dados de texto simples e pode extrair títulos de documentos
UI responsiva que funciona no celular
Corre em Docker

Começando a usar o Docker Compose

1. Colete seus documentos

Put all your files in one place, like ~/ebooks/ :

 $ tree ~/ebooks
/Users/ian/ebooks
└── Project Gutenberg/
    ├── Beowulf.txt
    ├── Dracula.txt
    ├── Frankenstein.txt

2. Execute aspen e elasticsearch

 $ docker-compose up -d
Creating network "aspen_default" with the default driver
Creating elasticsearch ... done
Creating aspen         ... done

3. Converta qualquer documentos não-planícios (PDFs, MS Word) em texto simples

Use the included convert utility, which wraps Apache Tika, to convert them to plaintext. Passe um nome de arquivo em relação ao seu diretório de dados:

 $ ls ~/ebooks
Project Gutenberg Test.docx

$ docker-compose run aspen convert Test.docx
Starting elasticsearch ... done
Test.docx doesn't exist, trying /data/Test.docx
Creating /data/Test.txt...
...
OK

$ ls ~/ebooks
Project Gutenberg Test.docx         Test.txt

4. Importar conteúdo para elasticsearch

Comece redefinindo o Elasticsearch para garantir que tudo esteja funcionando:

 $ docker-compose run aspen es-reset
Starting elasticsearch ... done
Results from DELETE: { acknowledged: true }
✓ Done.

Now import all .txt documents. The import script will try to figure out the title of the document automatically:

 $ docker-compose run aspen import
Starting elasticsearch ... done
→ Base directory is /app/public/data
▲ Ignoring non-text path: Test.docx
→ Test.txt → Test Document
→ Project Gutenberg/Beowulf.txt → The Project Gutenberg EBook of Beowulf
→ Project Gutenberg/Dracula.txt → The Project Gutenberg EBook of Dracula, by Bram Stoker
→ Project Gutenberg/Frankenstein.txt → Project Gutenberg's Frankenstein, by Mary Wollstonecraft (Godwin) Shelley
✓ Done!

You can also run import with a directory or file name relative to the data directory. For example, import Project Gutenberg or import Project GutenbergDracula.txt .

Às vezes, os documentos de texto simples agem estranhamente. Maybe bin/import can't extract a title or maybe the search highlights are off. O arquivo pode ter os finais de linha errados ou um daqueles cabeçalhos Bom BOM, UTF-8 irritantes. Tente executar o DOS2UNIX em seus arquivos de texto para corrigi -los.

5. Feito!

Vá para http: // localhost: 3000/e comece a pesquisar!

Configuração de desenvolvimento

1. Instale dependências

É mais fácil usar o Elasticsearch via Docker.

You can get Node and Yarn via Homebrew on Mac, or you can download Node.js v8.5 or later and npm install -g yarn to get Yarn.

For document conversation ( bin/convert ) you'll want:

Apache Tika
Urtf
Par

On macOS you can brew install node tika unrtf par .

2. Clone o repo

 $ git clone [email protected]:statico/aspen.git
$ cd aspen
$ yarn install

3. Configure o Elasticsearch e importe seus dados

Consulte as etapas 1-4 na seção "Usando Docker" acima. In short, get your text files together in one place, set up Elasticsearch, and import them with the bin/import command.

4. Inicie o aplicativo da web

Aspen é construído usando o Next.js, que é o nó + ES6 + Express + React + Recarregamento a quente + muito mais. Basta correr:

 $ yarn run dev

... e vá para http: // localhost: 3000

If you are working on server.js and want automatic server restarting, do:

 $ yarn global add nodemon
$ nodemon -w server.js -w lib -x yarn -- run dev

Notas de desenvolvimento

Isso começou como um exemplo angular de 1 + cafeescript. Recentemente, migrei para usar o Next.js, ES6 e React. Você pode ver um diferencial completo aqui.
Ainda estou usando o Elasticsearch 1.7 porque não me preocupei em aprender as versões mais recentes.

Links

Elasticsearch Guide
Elasticsearch 1.7 Referência
tree command

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-03-10
tamanho 346.41KB
Vindo de Github

Aplicativos Relacionados

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos