ดาวน์โหลด ScholarSense - ดาวน์โหลดซอร์สโค้ด ScholarSense

ScholarSense

ซอร์สโค้ดอื่น ๆ

v0.1.0-alpha

ดาวน์โหลด

นักวิชาการ: สร้างระบบคำแนะนำกระดาษของคุณ

นักวิชาการ-Loggo

สารบัญ

นักวิชาการคืออะไร
การติดตั้งอย่างไร
จะใช้อย่างไร
แอพ Streamlit Scholarsense
ท่อส่ง
- แบ็กเอนด์ที่เรียบง่าย
- แบ็กเอนด์ในหน่วยความจำ
- แบ็กเอนด์ Qdrant
เครื่องมือนักวิชาการ CLI
- ถู
- ฝัง
- ดัชนี
- มีแสงสว่าง
การอ้างอิง

นักวิชาการคืออะไร

Scholarsense เป็นเครื่องมือที่ช่วยให้คุณค้นหาเอกสารที่เกี่ยวข้องในการอ่านตามความสนใจของคุณ ช่วยให้คุณค้นหาเอกสารโดยใช้แบบสอบถาม มันใช้แบบจำลองภาษาเพื่อฝังข้อมูลเอกสาร (ชื่อเรื่องนามธรรม ฯลฯ ) ลงในพื้นที่เวกเตอร์ จากนั้นจะจัดทำดัชนีการฝังของเอกสารในฐานข้อมูลเวกเตอร์ (ในหน่วยความจำหรือ qdrant) ในที่สุดมันใช้แบบสอบถามเพื่อค้นหาเอกสารที่เกี่ยวข้องมากที่สุดในฐานข้อมูล

วิธีการติดตั้ง

ในการเรียกใช้นักวิชาการในพื้นที่คุณต้องติดตั้งสภาพแวดล้อมเสมือนจริงรวมถึงการพึ่งพาทั้งหมดโดยใช้ Poetry Python Package Manager

 poetry install

ในการเปิดใช้งานสภาพแวดล้อมเสมือนจริงคุณสามารถเรียกใช้คำสั่งต่อไปนี้:

 poetry shell

ในการตรวจสอบว่าเปิดใช้งานสภาพแวดล้อมเสมือนจริงคุณสามารถนำเข้าแพ็คเกจและพิมพ์เวอร์ชัน:

 python -c "import scholarsense; print(scholarsense.__version__)"

จะใช้อย่างไร

หลังจากติดตั้งแพ็คเกจคุณอาจต้องสร้างโครงสร้างของโฟลเดอร์ คุณสามารถทำได้โดยเรียกใช้คำสั่งต่อไปนี้:
```
 ./bash/create_dirs.sh
```
มันสร้างโครงสร้างต่อไปนี้:
```
 .
├── artifacts
│   ├── data
│   │   ├── csv
│   │   ├── json
|   └── embeddings
```
จากนั้นคุณต้องสร้างไฟล์กำหนดค่า คุณสามารถใช้ไฟล์ config.yaml เป็นเทมเพลต คุณสามารถเปลี่ยนคำหลักเพื่อค้นหา
เครื่องมือนี้สามารถใช้ได้สองวิธี:
- การใช้เครื่องมือ CLI Scholarsense ซึ่งอธิบายไว้ในส่วนถัดไป
- หรือใช้สคริปต์ในโฟลเดอร์สคริปต์
คุณสามารถเรียกใช้สคริปต์โดยตรงจากบรรทัดคำสั่ง ตัวอย่างเช่นการขูดเอกสารจาก arxiv คุณสามารถเรียกใช้คำสั่งต่อไปนี้:
```
 python scripts/run_scraping.py --config ./config/config.yaml --output_path ./artifacts/data/json --max_results 1000000
```
คุณยังสามารถใช้สคริปต์ Bash ในโฟลเดอร์ Bash ตัวอย่างเช่นการขูดเอกสารจาก arxiv คุณสามารถเรียกใช้คำสั่งต่อไปนี้:
```
 ./bash/scrap.sh
```

แอพ Streamlit Scholarsense

แอป StreamLit เป็นแอปเว็บที่ให้คุณค้นหาเอกสารโดยใช้แบบสอบถาม ภายใน UI คุณสามารถป้อนแบบสอบถามในกล่องข้อความและคลิกที่ปุ่ม "ส่ง" เพื่อรับผลลัพธ์ คุณยังสามารถสั่งซื้อผลลัพธ์ตามวันที่ ผลลัพธ์จะแสดงเป็นรายการเอกสารที่ขยายได้ กระดาษแต่ละเล่มมีชื่อเรื่องนามธรรมและลิงก์ไปยังไฟล์ PDF

นักวิชาการ-Loggo

ท่อส่ง

repo นี้เสนอแบ็กเอนด์สามตัวเพื่อใช้กับแอพ Streamlit: นักวิชาการ-Loggo

แบ็กเอนด์ที่เรียบง่าย

แบ็กเอนด์นี้เป็นสิ่งที่ง่ายที่สุด มันใช้ไฟล์ CSV ที่มีข้อมูลเอกสารและไฟล์ดองที่มีการฝังของเอกสาร ไฟล์ CSV มีคอลัมน์ต่อไปนี้:

title : ชื่อเรื่องของกระดาษ
abstract : บทคัดย่อของกระดาษ
pdf_url : URL ของไฟล์ PDF
id : ID ของกระดาษ

ไฟล์ดองมีอาร์เรย์ numpy ของรูปร่าง (n, d) โดยที่ n คือจำนวนเอกสารและ d คือมิติของการฝัง

ในการใช้แบ็กเอนด์นี้คุณควรใช้คำสั่งสามคำ scrape embed streamlit สำหรับข้อมูลเพิ่มเติมเกี่ยวกับคำสั่งเหล่านี้โปรดดูส่วนเครื่องมือ CLI

แบ็กเอนด์ในหน่วยความจำ

แบ็กเอนด์นี้ใช้ไฟล์ JSON ที่มีข้อมูลเอกสารและดัชนีทั้งเอกสารและ embeddings ในฐานข้อมูลในหน่วยความจำ ดัชนีจะถูกบันทึกเป็นไฟล์. bin ในการใช้แบ็กเอนด์นี้คุณควรใช้ scrape คำสั่งสามคำ index และ streamlit สำหรับข้อมูลเพิ่มเติมเกี่ยวกับคำสั่งเหล่านี้โปรดดูส่วนเครื่องมือ CLI

แบ็กเอนด์ Qdrant

แบ็กเอนด์นี้ใช้ไฟล์ JSON ที่มีข้อมูลเอกสารและดัชนีทั้งเอกสารและ embeddings ในฐานข้อมูล QDRANT ในการใช้แบ็กเอนด์นี้คุณควรใช้ scrape คำสั่งสามคำ index และ streamlit สำหรับข้อมูลเพิ่มเติมเกี่ยวกับคำสั่งเหล่านี้โปรดดูส่วนเครื่องมือ CLI

ในการเรียกใช้เซิร์ฟเวอร์ QDRANT คุณสามารถเรียกใช้คำสั่งต่อไปนี้:

 docker-compose up -d

เครื่องมือนักวิชาการ CLI

วิธีที่ง่ายที่สุดในการใช้ Scholarsense คือการใช้เครื่องมือ CLI คุณสามารถเรียกใช้คำสั่งต่อไปนี้เพื่อรับข้อความช่วยเหลือ:

 scholarsense --help

เครื่องมือ CLI มีคำสั่ง foor:

scrape : เพื่อขูดเอกสารจาก arxiv
embed : เพื่อฝังเอกสารโดยใช้โมเดลหม้อแปลงประโยคหรือเปิดโมเดล AI
index : เพื่อฝังและดัชนีเอกสารโดยใช้ฐานข้อมูลเวกเตอร์ (ในหน่วยความจำหรือ qdrant)
streamlit : เพื่อเรียกใช้แอป Streamlit และค้นหาเอกสาร

ถู

ในการขูดเอกสารจาก arxiv คุณสามารถเรียกใช้คำสั่งต่อไปนี้:

 scholarsense scrape --help

คำสั่งใช้อาร์กิวเมนต์ต่อไปนี้:

config : พา ธ ไปยังไฟล์กำหนดค่า YAML ที่มีคำหลักเพื่อค้นหา
output_path : พา ธ ไปยังไฟล์เอาต์พุตซึ่งเอกสารจะถูกบันทึกเป็นไฟล์ JSON
max_results : จำนวนสูงสุดของเอกสารที่จะขูดสำหรับแต่ละคำหลักค่าเริ่มต้นคือ 10,00000

ฝัง

คำสั่งนี้ใช้ในการฝังเอกสารโดยใช้โมเดลหม้อแปลงประโยคหรือเปิดโมเดล AI จากนั้นจะบันทึก embeddings ในไฟล์ดอง ในการฝังเอกสารคุณสามารถเรียกใช้คำสั่งต่อไปนี้:

 scholarsense embed --help

คำสั่งใช้อาร์กิวเมนต์ต่อไปนี้:

input_path : เส้นทางไปยังไฟล์ JSON ที่มีเอกสาร
output_path : พา ธ ไปยังไฟล์เอาต์พุตซึ่งเอกสารจะถูกบันทึกเป็นไฟล์ดอง
csv_file_path : เส้นทางไปยังไฟล์ CSV ซึ่งข้อมูลของ Pepers จะถูกบันทึกไว้
model_type : ประเภทของโมเดลที่จะใช้ไม่ว่าจะเป็น sentence-transformers หรือ openai ค่าเริ่มต้นคือ sentence-transformers
model_name : ชื่อของโมเดลที่จะใช้ประเภทที่เลือกค่าเริ่มต้นคือ all-MiniLM-L6-v2
encoding_method : ประเภทของวิธีการเข้ารหัสเพื่อใช้ {title, abstract, concat ฯลฯ }, ค่าเริ่มต้นคือ title

ดัชนี

คำสั่งนี้ใช้ในการฝังและจัดทำดัชนีเอกสารโดยใช้ฐานข้อมูลเวกเตอร์ (ในหน่วยความจำหรือ qdrant) ในการฝังและจัดทำดัชนีเอกสารคุณสามารถเรียกใช้คำสั่งต่อไปนี้:

 scholarsense index --help

คำสั่งใช้อาร์กิวเมนต์ต่อไปนี้:

db_path : เส้นทางไปยังไฟล์ JSON ที่มีเอกสาร
model_type : ประเภทของโมเดลที่จะใช้ไม่ว่าจะเป็น sentence-transformers หรือ openai ค่าเริ่มต้นคือ sentence-transformers
model_name : ชื่อของโมเดลที่จะใช้ประเภทที่เลือกค่าเริ่มต้นคือ all-MiniLM-L6-v2
encoding_method : ประเภทของวิธีการเข้ารหัสเพื่อใช้ {title, abstract, concat ฯลฯ }, ค่าเริ่มต้นคือ title
indexing_method : วิธีการใช้ในการจัดทำดัชนีเอกสารทั้ง in-memory หรือ qdrant ค่าเริ่มต้นคือ in-memory
host : โฮสต์ของเซิร์ฟเวอร์ QDRANT ค่าเริ่มต้นคือไม่มี
port : พอร์ตของเซิร์ฟเวอร์ QDDRANT ค่าเริ่มต้นคือไม่มี
collection_name : ชื่อของคอลเลกชันที่จะใช้ใน Qdrant ค่าเริ่มต้นคือไม่มี
index_file_path : พา ธ ไปยังไฟล์ดัชนีที่บันทึกเป็นไฟล์. bin สำหรับการจัดทำดัชนีในหน่วยความจำค่าเริ่มต้นคือไม่มี

มีแสงสว่าง

คำสั่งนี้ใช้เพื่อเรียกใช้แอพ streamlit และค้นหาเอกสาร ในการเรียกใช้แอพ StreamLit คุณสามารถเรียกใช้คำสั่งต่อไปนี้:

 scholarsense streamlit --help

คำสั่งใช้อาร์กิวเมนต์ต่อไปนี้:

backend : แบ็กเอนด์ที่จะใช้ไม่ว่าจะ simple in-memory หรือ qdrant
model_type : ประเภทของโมเดลที่จะใช้ไม่ว่าจะเป็น sentence-transformers หรือ openai
model_name : ชื่อของโมเดลที่จะใช้ประเภทที่เลือก
encoding_method : ประเภทของวิธีการเข้ารหัสเพื่อใช้ {title, abstract, concat ฯลฯ }
limit : จำนวนเอกสารสูงสุดที่จะแสดง
collection_name : ชื่อของคอลเลกชันที่จะใช้ใน Qdrant
csv_file_path : เส้นทางไปยังไฟล์ CSV ที่มีข้อมูลของเอกสารมีประโยชน์หากคุณใช้แบ็กเอนด์แบบง่าย
embedding_file_path : เส้นทางไปยังไฟล์ดองที่มีการฝังตัวมีประโยชน์หากคุณใช้แบ็กเอนด์แบบง่าย
index_file_path : พา ธ ไปยังไฟล์ดัชนีที่บันทึกเป็นไฟล์. bin สำหรับการจัดทำดัชนีในหน่วยความจำมีประโยชน์หากคุณใช้แบ็กเอนด์ในหน่วยความจำ

การอ้างอิง

arxiv api
หม้อแปลงประโยค
Openai Embedding
qdrant
มีแสงสว่าง
ปีศาจ

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน v0.1.0-alpha
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-05-27
ขนาด 370.83KB
มาจาก Github

แอปที่เกี่ยวข้อง

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด