ดาวน์โหลด JSTOR Semantic Search - JSTOR Semantic Search Source Source Download

JSTOR Semantic Search

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

การค้นหาความหมาย jstor ‍♀

การค้นหาเวกเตอร์สแต็กเต็มรูปแบบที่สร้างขึ้นสำหรับบทความโอเพ่นซอร์ส JSTOR - ค้นหาด้วยความหมายไม่ใช่คำหลัก!

แบ็กเอนด์ที่ทำจากฐานข้อมูลเวกเตอร์ pinecone, huggingface/transformers สำหรับ embeddings และ fastapi API ที่มีจุดสิ้นสุดสองจุดสำหรับการสอบถามที่มีหรือไม่มีตัวกรองข้อมูลเมตา ส่วนหน้าทำด้วย react.js

สรุปโครงการ

โครงการนี้มีวัตถุประสงค์เพื่อใช้กับชุดข้อมูลท้องถิ่นที่สร้างขึ้นจาก Constellate Data Data อย่างเป็นทางการของ JSTOR ในรูปแบบ JSONL จากตัวเลือกการดาวน์โหลดข้อมูลแบบเต็ม

ปัจจุบันชื่อเรื่องและคำบรรยายของบทความถูกรวมเข้าด้วยกันและฝังตัวและความคล้ายคลึงกันทางความหมายวัดจากการสืบค้นไปยังชื่อและคำบรรยายที่ฝังอยู่เหล่านี้ ข้อมูลรายละเอียดเพิ่มเติมเกี่ยวกับบทความจะถูกส่งคืนเป็นส่วนหนึ่งของข้อมูลเมตา

ผ่าน API และเว็บแอพส่วนหน้าจำนวน K ที่ต้องการสามารถส่งผ่านได้และตัวกรองเช่นวันที่และจำนวนหน้าสามารถส่งผ่านในรูปแบบของพจนานุกรมตัวกรองโดยใช้ภาษาการสืบค้นข้อมูลเมตาของ Pinecone

ผ่าน API พจนานุกรมของตัวกรองข้อมูลเมตาควรสะท้อนรูปแบบพจนานุกรมโดยตรงที่สามารถส่งผ่านไปยัง pinecone แม้ว่าแอปพลิเคชันเว็บจะจัดการการเพิ่มปุ่มและผู้ใช้สามารถป้อนค่าเพียงค่าในรูปแบบ

การตั้งค่าและวิธีใช้?

การตั้งค่าแบ็กเอนด์?

การติดตั้ง Python และการพึ่งพา?

ในการตั้งค่าด้วย Python และการพึ่งพาเพื่อเรียกใช้โครงการนี้:

หากไม่มีการติดตั้ง Python ให้ติดตั้งจากลิงค์นี้
โคลนที่เก็บนี้จากนั้นนำทางไปยังไดเรกทอรีที่อยู่ในและโฟลเดอร์/แบ็กเอนด์
ตั้งค่าสภาพแวดล้อมเสมือนจริงโดยใช้:
$ python -m venv <evironment_name>
เปิดใช้งานสภาพแวดล้อมเสมือนจริง สำหรับ Windows CMD สิ่งนี้ทำได้โดยใช้:
$ <evironment_name>Scriptsactivate.bat
ลิงค์นี้แสดงวิธีการทำเช่นนี้สำหรับระบบปฏิบัติการอื่น ๆ และประเภทเชลล์
ติดตั้งการพึ่งพาโดยใช้:
$ pip install -r requirements.txt
หนึ่งในไฟล์ Python สามารถเรียกใช้ได้โดยใช้:
$ python <filename>.py

การตั้งค่า Pinecone?

สร้างบัญชี Pinecone หากจำเป็นบนเว็บไซต์ของพวกเขา ผู้ใช้แต่ละคนสามารถสร้างดัชนีฟรีครั้งละหนึ่งรายการและคุณสามารถลบและสร้างดัชนีนี้ได้หลายครั้งตามที่คุณต้องการ
รับคีย์ API และสภาพแวดล้อมของคุณจากหน้า 'API Keys'
บันทึกสิ่งเหล่านี้ในไฟล์ที่เรียกว่า. ENV ในโฟลเดอร์ Backend ในรูปแบบต่อไปนี้:
```
 PINECONE_API_KEY='<YOUR API KEY>'
PINECONE_ENV='<YOUR ENVIRONMENT>'
```

การเพิ่มข้อมูล?

ในการเพิ่มข้อมูลลงในดัชนี Pinecone ของคุณ:

ดาวน์โหลดชุดข้อมูลหรือชุดข้อมูลหลายชุดจาก Constellate มีข้อ จำกัด จำนวนเอกสารที่สามารถอยู่ในแต่ละชุดข้อมูลได้ แต่คุณสามารถดึงได้หลายรายการ
แยกข้อมูลของคุณและย้ายไปยังไดเรกทอรีภายในโครงการที่ถูกโคลนนี้ซึ่งเป็นโฟลเดอร์ A /Data ในไดเรกทอรี /แบ็กเอนด์
สร้างอินสแตนซ์ของคลาส DBWriter จากไฟล์ db_writer.py อัปเดตรายการ paths_to_data ในคอนสตรัคเตอร์เพื่อให้ตรงกับที่คุณวางไฟล์ข้อมูลของคุณและอัปเดต index_name เป็นชื่อของดัชนี pinecone ของคุณ ('jstor-semantic-search' โดยค่าเริ่มต้น)
เรียกเมธอด. run () ของอินสแตนซ์ DBWriter ใหม่

สิ่งนี้ควรฝังและเพิ่มรายการทั้งหมดในชุดข้อมูลลงในดัชนี pinecone ของคุณ หมายเหตุสิ่งนี้จะเพิ่มไปยังดัชนีปัจจุบันดังนั้นหากคุณต้องการเฉพาะข้อมูลใหม่ที่จะอยู่ในดัชนีคุณควรลบดัชนีก่อนซึ่งสามารถทำได้ด้วยวิธี ._delete_index () ของคลาส DBClient ภายในที่เก็บนี้

เรียกใช้ API?

จากโฟลเดอร์ /แบ็กเอนด์ API สามารถเรียกใช้ได้โดย:

$ uvicorn main:app ที่จะไม่อัปเดต API ด้วยการเปลี่ยนแปลงการพัฒนาใด ๆ แต่สามารถปิดได้อย่างง่ายดายด้วย Ctrl + C ในเทอร์มินัล
$ uvicorn main:app --reload ซึ่งจะอัปเดต API ด้วยการเปลี่ยนแปลงการพัฒนาใด ๆ แต่จะไม่ปิดตัวลงด้วย Ctrl + C

จุดสิ้นสุด API

API มีจุดสิ้นสุดสองจุดหนึ่งอันสำหรับการค้นหาอย่างง่ายเท่านั้นและอีกอันหนึ่งสำหรับการค้นหาด้วยตัวกรองการสืบค้นและตัวกรองข้อมูลเมตา อย่างไรก็ตามวิธีการประมวลผลตัวกรองหมายความว่าจุดสิ้นสุดที่กรองจะทำงานกับ DICT ที่ว่างเปล่าและเป็นจุดสิ้นสุดเดียวที่เรียกจากเว็บแอป

GET /api/v1/query/{query_string}/{top_n}

ใช้พารามิเตอร์พา ธ สองพารามิเตอร์: - query_string (ประเภทข้อมูล: สตริง) - ข้อความค้นหาหลักที่ควรมีความหมายคล้ายกับผลลัพธ์ที่ผู้ใช้ต้องการ - top_n (ประเภทข้อมูล: จำนวนเต็ม) - จำนวนการจับคู่ที่จะส่งคืน

POST /api/v1/filter-query/{query_string}/{top_n}

ใช้พารามิเตอร์พา ธ สองตัวเดียวกัน: - query_string (ประเภทข้อมูล: สตริง) - ข้อความค้นหาหลักที่ควรมีความหมายคล้ายกับผลลัพธ์ที่ผู้ใช้ต้องการ - top_n (ประเภทข้อมูล: จำนวนเต็ม) - จำนวนการจับคู่ที่จะส่งคืน

รวมถึงตัวกรอง dict ในตัวถังคำขอ:

{
    "document_type" : { "$eq" : " document " },
    "word_count" : { "$gte" : 2000 }
}

จุดปลายทั้งสองส่งคืนการตอบสนองประเภทเดียวกันโดยมีผลลัพธ์หลักเป็นอาร์เรย์ภายในคีย์ 'Matches' เช่น:

{
  "matches" : [
    {
      "id" : " 123-abc-321 " ,
      "score" : 18.792 ,
      "values" : [],
      "metadata" : {
        "categories" : [
          " Language & Literature " ,
          " Humanities "
        ],
        "creator" : [
          " A. Creator "
        ],
        "date_published" : " 2020/04/01 " ,
        "document_sub_type" : " " ,
        "document_type" : " document " ,
        "issue_number" : " 1 " ,
        "language" : [
          " eng "
        ],
        "page_count" : 10.0 ,
        "parent_publication" : " A publication " ,
        "publisher" : " A publisher " ,
        "sub_title" : " " ,
        "title" : " An example " ,
        "url" : " http://www.jstor.org/stable/1234 " ,
        "volume_number" : " 2123 " ,
        "word_count" : 123.0
      }
    }
  ],
  "namespace" : " "
}

การตั้งค่าส่วนหน้า⚛

เมื่อแบ็กเอนด์ถูกตั้งค่าและ API กำลังทำงานอยู่คุณควรจะสามารถใช้เว็บแอปเพื่อโต้ตอบกับ API และค้นหาได้ง่ายขึ้น ในการทำเช่นนี้:

นำทางไปยังโฟลเดอร์ /frontend ใน respository cloned (ในเทอร์มินัลแยกต่างหากจากหนึ่งที่ใช้ API)
เรียกใช้ $ npm install เพื่อติดตั้งการพึ่งพา
เรียกใช้ $ npm start เพื่อเริ่มเว็บแอปในพื้นที่
ไซต์ควรเปิดโดยอัตโนมัติและคุณสามารถนำทางไปยัง http: // localhost: 3000/เพื่อใช้งาน

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-05-29
ขนาด 175.59KB
มาจาก Github

แอปที่เกี่ยวข้อง

ค้นหาคำ 800

2024-11-08
azure search python samples

2024-11-05
เกมค้นหาคำปริศนาคำศัพท์เวอร์ชันล่าสุด

2024-07-11
เกมส์ค้นหาคำศัพท์ Word Beach เวอร์ชั่นมือถือภาษาจีน

2023-11-28
เกมค้นหาคำสำหรับเด็กเวอร์ชันล่าสุด

2023-10-08
Liehuo! ค้นหา ค้นหาภาษาอังกฤษ

2011-01-07

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด