aspen下載 - aspen源代碼下載

aspen

其他源碼

1.0.0

下載

阿斯彭

Aspen讓您可以通過瀏覽器搜索純文本文件的大型語料庫。

強大的搜索查詢通過Elasticsearch查詢字符串語法
對明文數據進行一些基本的清理，並可以提取文檔標題
在移動設備上有效的響應UI
在Docker中運行

開始使用Docker組成

1。收集您的文件

將所有文件放在一個地方，例如~/ebooks/ ：

 $ tree ~/ebooks
/Users/ian/ebooks
└── Project Gutenberg/
    ├── Beowulf.txt
    ├── Dracula.txt
    ├── Frankenstein.txt

2。運行Aspen＆Elasticsearch

 $ docker-compose up -d
Creating network "aspen_default" with the default driver
Creating elasticsearch ... done
Creating aspen         ... done

3。將任何非plaintext（PDFS，MS Word）文檔轉換為明文

使用包裝Apache Tika的隨附的convert實用程序將其轉換為明文。將其相對於您的數據目錄傳遞給文件名：

 $ ls ~/ebooks
Project Gutenberg Test.docx

$ docker-compose run aspen convert Test.docx
Starting elasticsearch ... done
Test.docx doesn't exist, trying /data/Test.docx
Creating /data/Test.txt...
...
OK

$ ls ~/ebooks
Project Gutenberg Test.docx         Test.txt

4。將內容導入到Elasticsearch

首先重置Elasticsearch，以確保一切正常：

 $ docker-compose run aspen es-reset
Starting elasticsearch ... done
Results from DELETE: { acknowledged: true }
✓ Done.

現在導入所有.txt文檔。 import腳本將嘗試自動找出文檔的標題：

 $ docker-compose run aspen import
Starting elasticsearch ... done
→ Base directory is /app/public/data
▲ Ignoring non-text path: Test.docx
→ Test.txt → Test Document
→ Project Gutenberg/Beowulf.txt → The Project Gutenberg EBook of Beowulf
→ Project Gutenberg/Dracula.txt → The Project Gutenberg EBook of Dracula, by Bram Stoker
→ Project Gutenberg/Frankenstein.txt → Project Gutenberg's Frankenstein, by Mary Wollstonecraft (Godwin) Shelley
✓ Done!

您還可以使用目錄或文件名相對於數據目錄運行import 。例如， import Project Gutenberg或import Project GutenbergDracula.txt 。

有時明文文件奇怪地行動。也許bin/import無法提取標題，也許搜索亮點關閉。該文件可能有錯誤的行末尾或那些煩人的UTF-8 BOM標題之一。嘗試在文本文件上運行dos2unix進行修復。

5。完成！

轉到http：// localhost：3000/，開始搜索！

開發設置

1。安裝依賴項

通過Docker使用Elasticsearch是最簡單的。

您可以通過Mac上的Homebrew獲得節點和紗線，也可以下載Node.js v8.5或更高版本以及npm install -g yarn以獲取紗線。

對於文檔對話（ bin/convert ），您將要：

Apache Tika
UNRTF
par

在MacOS上，您可以brew install node tika unrtf par 。

2。克隆回購

 $ git clone [email protected]:statico/aspen.git
$ cd aspen
$ yarn install

3。設置Elasticsearch並導入您的數據

請參閱以上“使用Docker”部分中的步驟1-4。簡而言之，將您的文本文件放在一個地方，設置Elasticsearch，並使用bin/import命令導入它們。

4。啟動Web應用程序

Aspen是使用Next.js構建的，即節點 + ES6 + ES6 + Express + React + Hot Reloading +更多。只需運行：

 $ yarn run dev

...然後轉到http：// localhost：3000

如果您要在server.js上工作並想要自動服務器重新啟動，請執行：

 $ yarn global add nodemon
$ nodemon -w server.js -w lib -x yarn -- run dev

開發說明

這開始是一個Angular 1 + Coffeescript示例。我最近將其遷移到使用Next.js，ES6和React。您可以在此處查看完整的差異。
我仍在使用Elasticsearch 1.7，因為我不願意學習新版本。

鏈接

Elasticsearch指南
Elasticsearch 1.7參考
tree命令

展開

附加信息

版本 1.0.0
類型其他源碼
更新時間 2025-03-10
大小 346.41KB
來自於 Github

相關應用

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部