chat with pennsieve Download - chat with pennsieve Source Source Download

chat with pennsieve

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

แชทกับ Pennsieve

คำอธิบายโครงการ

นี่คือองค์ประกอบของโครงการวิจัยที่พัฒนาขึ้นภายใต้คำแนะนำของดร. Zachary Ives เป้าหมายเริ่มต้นคือการพัฒนาเลเยอร์กราฟที่ด้านบนของฐานข้อมูล Pennsieve และเปิดใช้งานการเรียนรู้ของเครื่องผ่านการสกัดข้อมูลทางการแพทย์ที่มีประสิทธิภาพจากรูปแบบไฟล์ที่ซับซ้อนและหลากหลาย ส่วนประกอบนี้ ช่วยให้การโต้ตอบภาษาธรรมชาติกับฐานข้อมูล

หมายเหตุ : วิธีการทั้งหมดถูกนำไปใช้กับกราฟพื้นฐานที่สร้างขึ้นบน Neo4J โดยใช้พื้นที่เก็บข้อมูลอื่นซึ่งจะเชื่อมโยงกันเมื่อเป็นสาธารณะ โครงการนี้พร้อมที่จะใช้นอกกรอบอย่างไรก็ตามหากไม่มีกราฟพื้นฐานที่กรอกข้อมูลคุณจะไม่ได้รับผลลัพธ์ใด ๆ

โครงสร้างโครงการ

แอป/

__init__.py : เริ่มต้นแพ็คเกจแอป
- วัตถุประสงค์ : ทำเครื่องหมายไดเรกทอรีเป็นแพ็คเกจ Python เพิ่มการนำเข้าระดับแพ็คเกจที่นี่หากจำเป็น
config.py : จัดการตัวแปรการกำหนดค่าและสภาพแวดล้อม
- วัตถุประสงค์ : โหลดตัวแปรสภาพแวดล้อมและกำหนดการตั้งค่าการกำหนดค่า
- การปรับปรุง : ใช้การจัดการข้อผิดพลาดสำหรับตัวแปรสภาพแวดล้อมที่หายไปหากจำเป็น
database.py : จัดการการเชื่อมต่อฐานข้อมูล Neo4J
- วัตถุประสงค์ : ฟังก์ชั่น setup_neo4j_graph() ส่งคืนกราฟ neo4j ที่กำหนดค่าด้วย URL ชื่อผู้ใช้และรหัสผ่านที่ให้ไว้ในไฟล์. .env
- เอกสาร : setup_neo4j_graph() ส่งคืน wrapper ฐานข้อมูล langchain neo4j วิธีการสำคัญที่ใช้: query() และ refresh_schema() เอกสาร langchain neo4jgraph
main.py : จุดเข้าใช้งานของแอปพลิเคชัน ผ่านการสืบค้นผู้ใช้และดึงผลลัพธ์โดยการเรียก run_query(user_query: str) จาก qa_chain.py มันเป็นบทสรุปความซับซ้อนทั้งหมดและให้อินเทอร์เฟซอย่างง่ายเพื่อโต้ตอบกับระบบ
dataguide.py : แยกพา ธ Dataguide จากฐานข้อมูลและจัดรูปแบบให้เป็นเส้นทาง cypher
- วิธีการ :
  1. extract_dataguide_paths(graph: Neo4jGraph) : แยกพา ธ Dataguide จากรูทถึงใบไม้โดยใช้แบบสอบถาม cypher
  2. format_paths_for_llm(results: List[Dict[str, Any]]) : รูปแบบผลลัพธ์จาก extract_dataguide_paths ไปยังเส้นทาง cypher ที่ถูกต้องสำหรับการสืบค้นการจับคู่
test.py : ทดสอบการเชื่อมต่อกับกราฟ Neo4J, การสกัดเส้นทาง Dataguide และการจัดรูปแบบ เอาท์พุทเวลาที่ใช้สำหรับแต่ละส่วน
- การปรับปรุง : เพิ่มการทดสอบหน่วยหรือทดสอบวิธีอื่น ๆ ด้วยตนเอง
prompt_generator.py : โมดูลนี้มีหน้าที่ในการสร้างและรวม ระบบ langchain และการแจ้งเตือน ของมนุษย์ เข้ากับ langchain.prompts.ChatPromptTemplate มันเป็นส่วนสำคัญของโครงการเนื่องจากกำหนดวิธีการที่มีโครงสร้างและใช้ในกรอบ Langchain
- วิธีการ :
  - get_cypher_prompt_template() : วิธีนี้ส่งคืนอินสแตนซ์ ChatPromptTemplate ที่สร้างขึ้นในไฟล์นี้ มันรวมระบบและการแจ้งเตือนของมนุษย์เข้ากับเทมเพลตเดียวที่สามารถใช้ในการสร้างข้อความค้นหา Cypher จาก GraphCypherQAChain ใน qa_chain.py
- เอกสาร :
  - PromptTemplate: คลาสนี้ใช้เพื่อกำหนดโครงสร้างของพรอมต์ พารามิเตอร์หลักที่ใช้คือ input_variables ซึ่งระบุตัวแปรที่จะรวมอยู่ในพรอมต์และ template ซึ่งกำหนดข้อความของพรอมต์
  - SystemMessAgePromptTemplate: คลาสนี้ใช้เพื่อสร้างข้อความระบบในพรอมต์ พารามิเตอร์หลักที่ใช้คือ prompt ซึ่งกำหนดข้อความของข้อความ
  - HumanMessagePromptTemplate: คลาสนี้ใช้เพื่อสร้างข้อความของมนุษย์ในพรอมต์ พารามิเตอร์หลักที่ใช้คือ prompt ซึ่งกำหนดข้อความของมนุษย์
  - ChatPromptTemplate: คลาสนี้รวมระบบและข้อความของมนุษย์ไว้ในพรอมต์แชทเดียว วิธีหลักที่ใช้คือ from_messages() ซึ่งใช้รายการเทมเพลตข้อความและรวมเข้ากับพรอมต์แชท
qa_chain.py : กำหนดฟังก์ชั่น run_query(user_query: str) ซึ่งรวมส่วนประกอบโครงการทั้งหมดและรัน GraphCypherQAChain บนแบบสอบถามผู้ใช้
- เอกสาร :
  - Graphcypherqachain
  - Chatopenai
  - หมายเหตุ: แทนที่ ChatOpenAI ด้วย Azurechatopenai หากจำเป็น

paths_vectordb/

__init__.py : เริ่มต้นแพ็คเกจแอป
- วัตถุประสงค์ : ทำเครื่องหมายไดเรกทอรีเป็นแพ็คเกจ Python เพิ่มการนำเข้าระดับแพ็คเกจที่นี่หากจำเป็น
generate_descriptions.py : กำหนดพรอมต์ระบบเพื่อสร้างคำอธิบายจาก LLMs สำหรับเส้นทาง cypher
- วิธีการ :
  - generate_path_descriptions(all_paths: List[str]) : สร้างคำอธิบายสำหรับเส้นทางที่กำหนดโดยใช้ LLM แสดงรายการคำอธิบาย
  - generate_embedding(path_description: str) : สร้าง EMBEDDINGS สำหรับคำอธิบายเส้นทางที่กำหนดโดยใช้ OpenAI EMBEDDINGS API
- เอกสาร : openaiembeddings
random_path_generator.py : จัดเตรียมวิธีการสร้างพา ธ สุ่มจากฐานข้อมูลและจัดรูปแบบลงในเส้นทาง Cypher
vectorDB_setup.py : จัดเตรียมวิธีการเริ่มต้นคอนเทนเนอร์ Milvus เชื่อมต่อกับมันกำหนดสคีมาคอลเลกชันสร้างคอลเลกชันแทรกข้อมูลและดำเนินการค้นหาความคล้ายคลึงกันของเวกเตอร์
- เอกสาร : pymilvus
main.py : ฟังก์ชั่น wrapper ที่รวมฟังก์ชันทั้งหมดจากไดเรกทอรีนี้ ตัวอย่างเช่น get_similar_paths_from_milvus ใช้ใน app/qa_chain.py เพื่อดำเนินการค้นหาความคล้ายคลึงกันของเวกเตอร์ด้วยการสืบค้นผู้ใช้
test.py : วิธีการทดสอบฟังก์ชันต่าง ๆ ปัจจุบันแสดงความคิดเห็น
- การปรับปรุง : เพิ่มการทดสอบหน่วยหรือวิธีทดสอบด้วยตนเอง
write_read_data.py : วิธีการเขียนและอ่านง่าย ๆ เพื่อจัดเก็บเส้นทาง Cypher และคำอธิบายที่สร้างขึ้นจากการโทร API
- วัตถุประสงค์ : ช่วยในการวิเคราะห์และประหยัดค่าใช้จ่าย API วิธีการ fill_collection_with_random_paths ใน paths_vectorDB/main.py เขียนเส้นทางและคำอธิบายที่สร้างจากการเรียก API ลงใน data.txt

ไดเรกทอรีราก

env.sample : ทำสำเนาของสิ่งนี้ในไดเรกทอรีรากโครงการของคุณและเปลี่ยนชื่อเป็น .env กรอกค่า
.gitignore : ระบุไฟล์และไดเรกทอรีที่จะถูกละเว้นโดย Git
README.md : เอกสารโครงการ
docker-compose.yml : ไฟล์ Docker สำหรับ Milvus DB หากมีเวอร์ชันใหม่ให้แทนที่ไฟล์นี้ ตรวจสอบให้แน่ใจว่ามีชื่อว่า docker-compose.yml และวางไว้ในไดเรกทอรีราก
requirements.txt : การพึ่งพา Python และรุ่นที่เข้ากันได้ที่ใช้สำหรับการพัฒนา หมายเหตุ: ไฟล์ requirements.txt txtถูกสร้างขึ้นผ่าน pipenv

เริ่มต้น

ข้อกำหนดเบื้องต้น

Python 3.8+
นักเทียบท่า
ฐานข้อมูล Neo4J Desktop และ Neo4J ที่เต็มไปด้วยกราฟและ DataGuide (รหัสสำหรับสิ่งนี้จะเชื่อมโยงเร็ว ๆ นี้)

การติดตั้ง

การเริ่มต้นใช้งานโครงการนี้เป็นเรื่องง่าย คุณสามารถทำตามขั้นตอนด้านล่าง:

โคลนที่เก็บ :
```
git clone https://github.com/hussainzs/chat-with-pennsieve.git
cd project_root
```
หมายเหตุ: ตรวจสอบให้แน่ใจว่าคุณอยู่ในไดเรกทอรีรากของโครงการก่อนดำเนินการตามขั้นตอนถัดไป
ติดตั้งการพึ่งพา :
```
pip install -r requirements.txt
```
ตั้งค่าตัวแปรสภาพแวดล้อม :
- คัดลอก env.sample และเปลี่ยนชื่อไฟล์เป็น .env และกรอกค่าที่ต้องการ
ตั้งค่าเดสก์ท็อป Neo4J :
- ดาวน์โหลดและติดตั้ง Neo4J Desktop
- หมายเหตุ URL ชื่อผู้ใช้และรหัสผ่านสำหรับฐานข้อมูล NEO4J ที่มีกราฟและ DataGuide
- อัปเดตไฟล์ .env ด้วยรายละเอียดการเชื่อมต่อ NEO4J (URL, ชื่อผู้ใช้, รหัสผ่าน) ค่าเริ่มต้นได้รับการกรอกข้อมูล
เรียกใช้แอพ/main.py :
- นำทางไปยังไดเรกทอรี app และเรียกใช้ main.py ตรวจสอบให้แน่ใจว่าแบบสอบถามผู้ใช้ที่คุณต้องการถูกส่งผ่านเป็นอาร์กิวเมนต์ไปยังฟังก์ชั่น run_query(user_query)
- ตรวจสอบให้แน่ใจว่าคุณมี docker-compose.yml ในไดเรกทอรีราก เมื่อคุณเรียกใช้แอป/main.py คอนเทนเนอร์ Milvus จะเริ่มต้นโดยอัตโนมัติโดยเรียกใช้คำสั่งเทอร์มินัล ตรวจสอบ paths_vectorDB/vectorDB_setup.py สำหรับข้อมูลเพิ่มเติม
- หมายเหตุ : เมื่อคอนเทนเนอร์ Milvus ถูกสร้างขึ้นในครั้งแรกมันจะดาวน์โหลดและสร้างโฟลเดอร์ใหม่ในไดเรกทอรีรูทชื่อ volumes โฟลเดอร์มี 3 โฟลเดอร์ย่อย: milvus , minio และ etcd
- สำหรับข้อมูลเพิ่มเติมตรวจสอบ: เรียกใช้ Milvus โดยใช้ Docker Compose

หมายเหตุ : สำหรับการชี้แจงเพิ่มเติมเกี่ยวกับเอาต์พุตที่คาดหวังเมื่อคุณเรียกใช้ app/main.py ฉันกำลังแนบเอาต์พุต 2 PDFs ที่สร้างขึ้นจากระบบในโฟลเดอร์ที่เรียกว่า เอาต์พุตที่คาดหวัง

ไฟล์ชื่อ first_output.pdf แสดงสิ่งที่คาดหวังเมื่อผู้ใช้รัน app/main.py เป็นครั้งแรกในเซสชันใหม่ที่มีค่าเริ่มต้น (เมื่อคุณเรียกใช้เป็นครั้งแรกอาจใช้เวลาสักครู่ในการดาวน์โหลดทุกอย่าง)
regular_output.pdf แสดงสิ่งที่คาดหวังเมื่อผู้ใช้รัน app/main.py ในเซสชันปกติที่มีค่าเริ่มต้น

การปรับปรุงที่แนะนำ

ปรับปรุงพรอมต์ของระบบ : การเพิ่มพรอมต์ในทั้ง app และ paths_vectorDB สามารถปรับปรุงประสิทธิภาพ LLM ได้อย่างมีนัยสำคัญ ฉันเห็นว่าตัวอย่างที่มีคุณภาพสูงในการแจ้งระบบจะเพิ่มคุณภาพของการสร้างคำอธิบายสำหรับเส้นทาง พรอมต์ระบบยังส่งผลกระทบอย่างมีนัยสำคัญคำตอบสุดท้ายจาก LLM
เพิ่มประสิทธิภาพบริบทสำหรับ LLM : แทนที่จะส่งเส้นทาง Dataguide ทั้งหมดส่งเส้นทางที่เกี่ยวข้อง 10 อันดับแรกจาก Milvus Vector DB เพื่อลดต้นทุน API และอาจปรับปรุงประสิทธิภาพ การแจ้งเตือนของระบบยาวสามารถเพิ่มภาพหลอนและสับสน LLM อ้างถึงบทความนี้สำหรับข้อมูลเพิ่มเติม: หายไปกลาง: แบบจำลองภาษาใช้บริบทที่ยาวอย่างไร
อัปเดต Milvus : ติดตั้ง Milvus เวอร์ชันล่าสุดและเปลี่ยนตัวชี้วัดความคล้ายคลึงกันจาก "IP" (ผลิตภัณฑ์ภายใน) เป็นโคไซน์ในวิธี search_similar_vectors ภายใน paths_vectorDB/vectorDB_setup.py เพื่อผลลัพธ์ที่ดีกว่า
สร้างแชท UI : ใช้ StreamLit หรือไลบรารี UI ที่คุณชื่นชอบเพื่อสร้างส่วนต่อประสานผู้ใช้พื้นฐานสำหรับโครงการนี้ คุณสามารถใช้ fastapi เพื่อสร้าง API อย่างง่ายสำหรับการส่งแบบสอบถามผู้ใช้และรับคำตอบจาก app/main.py.
เพิ่มความสามารถในการสนทนา : อนุญาตให้มีการติดตามการโต้ตอบเพื่อเป็นแนวทางในการสร้างเส้นทางที่ดีขึ้นแม้ว่าสิ่งนี้อาจเพิ่มค่าใช้จ่าย API ฉันสังเกตเห็นว่าบ่อยครั้งที่ LLM ผิดมันเป็นเพียงเล็กน้อยในการสร้างเส้นทางของมัน คนที่มีความรู้โดเมนเกี่ยวกับกราฟพื้นฐานสามารถแก้ไขได้อย่างง่ายดายด้วยการติดตามพื้นฐาน

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-06-01
ขนาด 7.67MB
มาจาก Github

แอปที่เกี่ยวข้อง

huanhuan chat

2024-11-10
ปีนขึ้นไปด้วยรถสาลี่

2022-08-26
แข่งกับไรอัน

2022-08-21
นกกับความรู้สึก

2022-07-26
การพัฒนาเว็บแบบ Agile ด้วย Rails ครั้งที่ 2

2009-06-02
การพัฒนาเว็บแบบ Agile พร้อมซอร์สโค้ด Rails ที่มาพร้อมกับหนังสือ

2009-06-02

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด