Download chat with pennsieve - chat with pennsieve Source Code Unduh

chat with pennsieve

Kode sumber lainnya

1.0.0

Unduh

Mengobrol dengan Pennsieve

Deskripsi proyek

Ini adalah komponen proyek penelitian yang dikembangkan di bawah bimbingan Dr. Zachary Ives. Tujuan awalnya adalah untuk mengembangkan lapisan grafik di atas database PennSieve dan memungkinkan pembelajaran mesin melalui ekstraksi data yang efektif dari data medis dari format file yang kompleks dan serbaguna. Komponen ini memungkinkan interaksi bahasa alami dengan database.

Catatan : Semua metode diimplementasikan pada grafik yang mendasari yang dibangun di Neo4j menggunakan repositori lain yang akan ditautkan setelah dipublikasikan. Proyek ini siap digunakan di luar kotak, namun, tanpa grafik yang mendasari Anda tidak akan mendapatkan hasil apa pun.

Struktur proyek

Aplikasi/

__init__.py : Menginisialisasi paket aplikasi.
- Tujuan : Menandai direktori sebagai paket Python. Tambahkan impor tingkat paket di sini jika diperlukan.
config.py : Menangani variabel konfigurasi dan lingkungan.
- Tujuan : Memuat variabel lingkungan dan mendefinisikan pengaturan konfigurasi.
- Peningkatan : Menerapkan penanganan kesalahan untuk variabel lingkungan yang hilang jika diperlukan.
database.py : Mengelola koneksi database NEO4J.
- Tujuan : Fungsi setup_neo4j_graph() Mengembalikan grafik neo4j yang dikonfigurasi dengan URL, nama pengguna, dan kata sandi yang disediakan dalam file .env .
- Dokumentasi : setup_neo4j_graph() Mengembalikan pembungkus basis data Langchain Neo4J. Metode penting yang digunakan: query() dan refresh_schema() . Dokumentasi Langchain Neo4Jgraph
main.py : Titik masuk aplikasi. Lewati kueri pengguna dan ambil hasilnya dengan menelepon run_query(user_query: str) dari qa_chain.py . Ini mengabstraksi semua kompleksitas dan menyediakan antarmuka sederhana untuk berinteraksi dengan sistem.
dataguide.py : mengekstrak jalur dataguide dari database dan memformatnya ke jalur cypher.
- Metode :
  1. extract_dataguide_paths(graph: Neo4jGraph) : mengekstrak jalur dataguide dari root ke daun menggunakan kueri cypher.
  2. format_paths_for_llm(results: List[Dict[str, Any]]) : Format hasil dari extract_dataguide_paths ke jalur cypher yang valid untuk kueri kecocokan.
test.py : Menguji koneksi dengan grafik neo4j, ekstraksi jalur dataguide, dan memformatnya. Menghasilkan waktu yang dibutuhkan untuk setiap bagian.
- Peningkatan : Tambahkan pengujian unit atau uji metode lain secara manual.
prompt_generator.py : Modul ini bertanggung jawab untuk membuat dan menggabungkan sistem Langchain dan permintaan manusia ke langchain.prompts.ChatPromptTemplate . Ini adalah bagian penting dari proyek karena mendefinisikan bagaimana prompt disusun dan digunakan dalam kerangka kerja Langchain.
- Metode :
  - get_cypher_prompt_template() : Metode ini mengembalikan instance ChatPromptTemplate yang dibuat dalam file ini. Ini menggabungkan sistem dan permintaan manusia ke dalam satu templat yang dapat digunakan untuk menghasilkan kueri cypher dari GraphCypherQAChain di qa_chain.py .
- Dokumentasi :
  - PromptTemplate: Kelas ini digunakan untuk menentukan struktur petunjuk. Parameter utama yang digunakan adalah input_variables , yang menentukan variabel yang akan dimasukkan dalam prompt, dan template , yang mendefinisikan teks prompt.
  - SystemMessagePromptTemplate: Kelas ini digunakan untuk membuat pesan sistem di prompt. Parameter utama yang digunakan adalah prompt , yang mendefinisikan teks pesan sistem.
  - HumanMessagePromptTemplate: Kelas ini digunakan untuk membuat pesan manusia di prompt. Parameter utama yang digunakan adalah prompt , yang mendefinisikan teks pesan manusia.
  - ChatPromptTemplate: Kelas ini menggabungkan sistem dan pesan manusia menjadi satu prompt obrolan. Metode utama yang digunakan adalah from_messages() , yang mengambil daftar templat pesan dan menggabungkannya menjadi prompt obrolan.
qa_chain.py : Menentukan fungsi run_query(user_query: str) , yang mengintegrasikan semua komponen proyek dan menjalankan GraphCypherQAChain pada kueri pengguna.
- Dokumentasi :
  - Graphcypherqachain
  - Chatopenai
  - Catatan: Ganti ChatOpenAI dengan azurechatopenai jika diperlukan.

PATHS_VECTORDB/

__init__.py : Menginisialisasi paket aplikasi.
- Tujuan : Menandai direktori sebagai paket Python. Tambahkan impor tingkat paket di sini jika diperlukan.
generate_descriptions.py : Menentukan prompt sistem untuk menghasilkan deskripsi dari llms untuk jalur cypher.
- Metode :
  - generate_path_descriptions(all_paths: List[str]) : Menghasilkan deskripsi untuk jalur yang diberikan menggunakan LLM. Mengeluarkan daftar deskripsi.
  - generate_embedding(path_description: str) : Menghasilkan embeddings untuk deskripsi jalur yang diberikan menggunakan Openai Embeddings API.
- Dokumentasi : OpenAaiembeddings
random_path_generator.py : Menyediakan metode untuk menghasilkan jalur acak dari database dan memformatnya ke jalur cypher.
vectorDB_setup.py : Menyediakan metode untuk memulai wadah milvus, terhubung dengan itu, menentukan skema pengumpulan, membuat pengumpulan, memasukkan data, dan melakukan pencarian kesamaan vektor.
- Dokumentasi : Pymilvus
main.py : Fungsi pembungkus yang menggabungkan semua fungsi dari direktori ini. Misalnya, get_similar_paths_from_milvus digunakan dalam app/qa_chain.py untuk melakukan pencarian kesamaan vektor dengan kueri pengguna.
test.py : Metode untuk menguji berbagai fungsi. Saat ini dikomentari.
- Peningkatan : Tambahkan pengujian unit atau metode pengujian secara manual.
write_read_data.py : Metode tulis dan baca sederhana untuk menyimpan jalur dan deskripsi cypher yang dihasilkan dari panggilan API.
- Tujuan : Membantu dengan analisis dan menghemat biaya API. Metode fill_collection_with_random_paths di paths_vectorDB/main.py menuliskan jalur dan deskripsi yang dihasilkan dari panggilan API ke data.txt .

Direktori root

env.sample : Buat salinan ini di direktori root proyek Anda dan ganti namanya menjadi .env . Isi nilainya.
.gitignore : Menentukan file dan direktori yang harus diabaikan oleh git.
README.md : Dokumentasi Proyek.
docker-compose.yml : File Docker untuk Milvus DB. Jika ada versi baru, ganti file ini. Pastikan dinamai docker-compose.yml dan ditempatkan di direktori root.
requirements.txt : Ketergantungan Python dan versi kompatibelnya yang digunakan untuk pengembangan. Catatan: File requirements.txt dibuat melalui pipenv .

Memulai

Prasyarat

Python 3.8+
Buruh pelabuhan
Neo4j Desktop dan Neo4J Database diisi dengan grafik dan dataguide (kode untuk ini akan segera ditautkan)

Instalasi

Memulai proyek ini sederhana. Anda dapat mengikuti langkah -langkah di bawah ini:

Klon Repositori :
```
git clone https://github.com/hussainzs/chat-with-pennsieve.git
cd project_root
```
Catatan: Pastikan Anda berada di direktori Root Proyek sebelum melanjutkan dengan langkah selanjutnya.
Instal dependensi :
```
pip install -r requirements.txt
```
Mengatur variabel lingkungan :
- Salin env.sample dan ganti nama file ke .env dan isi nilai yang diperlukan.
Siapkan desktop neo4j :
- Unduh dan instal desktop neo4j.
- Perhatikan URL, nama pengguna, dan kata sandi untuk database NEO4J yang berisi grafik dan dataguide.
- Perbarui file .env dengan detail koneksi NEO4J (URL, nama pengguna, kata sandi). Nilai default telah diisi.
Jalankan App/Main.py :
- Arahkan ke direktori app dan jalankan main.py Pastikan kueri pengguna yang Anda inginkan dilewati sebagai argumen ke fungsi run_query(user_query) .
- Pastikan Anda memiliki docker-compose.yml di direktori root. Saat Anda menjalankan app/main.py, wadah Milvus akan mulai secara otomatis dengan menjalankan perintah terminal. Lihat paths_vectorDB/vectorDB_setup.py untuk informasi lebih lanjut.
- Catatan : Ketika wadah Milvus dibuat pertama kali, ia mengunduh dan membuat folder baru di direktori root bernama volumes . Folder berisi 3 subfolder: milvus , minio , dan etcd .
- Untuk informasi lebih lanjut, periksa: Jalankan Milvus menggunakan Docker Compose

Catatan : Untuk klarifikasi lebih lanjut dari output yang diharapkan saat Anda menjalankan app/main.py , saya melampirkan 2 PDF output yang dihasilkan dari sistem di folder yang disebut output yang diharapkan .

File bernama first_output.pdf menunjukkan apa yang diharapkan ketika pengguna menjalankan app/main.py untuk pertama kalinya dalam sesi baru dengan nilai default. (Saat Anda menjalankannya untuk pertama kalinya, mungkin perlu waktu untuk mengunduh semuanya)
regular_output.pdf menunjukkan apa yang diharapkan ketika pengguna menjalankan app/main.py dalam sesi reguler dengan nilai default.

Peningkatan yang disarankan

Tingkatkan Sistem Prompt : Meningkatkan petunjuk di app dan paths_vectorDB dapat secara signifikan meningkatkan kinerja LLM. Saya menyaksikan bahwa contoh kualitas tinggi dalam sistem prompt akan meningkatkan kualitas generasi deskripsi untuk jalur. Prompt sistem juga secara signifikan mempengaruhi jawaban akhir dari LLM.
Optimalkan konteks untuk LLM : Alih -alih mengirim semua jalur dataguide, kirim 10 jalur terkait teratas dari milvus vektor DB untuk mengurangi biaya API dan berpotensi meningkatkan kinerja. Permintaan sistem panjang dapat meningkatkan halusinasi dan membingungkan LLM, lihat makalah ini untuk informasi lebih lanjut: hilang di tengah: Bagaimana model bahasa menggunakan konteks panjang
UPDATE MILVUS : Instal versi terbaru MILVUS dan ubah metrik kesamaan dari "IP" (produk dalam) menjadi cosinus di metode search_similar_vectors di dalam paths_vectorDB/vectorDB_setup.py untuk hasil yang lebih baik.
Buat Obrolan UI : Gunakan StreamLit atau perpustakaan UI favorit Anda untuk membuat antarmuka pengguna dasar untuk proyek ini. Anda dapat menggunakan FASTAPI untuk membuat API sederhana untuk mengirim kueri pengguna dan menerima tanggapan dari app/main.py.
Tambahkan kemampuan percakapan : memungkinkan interaksi tindak lanjut untuk memandu LLM untuk pembuatan jalur yang lebih baik, meskipun ini dapat meningkatkan biaya API. Saya perhatikan bahwa sering ketika LLM salah, itu hanya sedikit karena dalam generasi jalurnya. Seseorang dengan pengetahuan domain tentang grafik yang mendasarinya dapat dengan mudah memperbaikinya dengan tindak lanjut dasar.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-06-01
ukuran 7.67MB
Berasal dari Github

Aplikasi Terkait

huanhuan chat

2024-11-10
Memanjat Dengan Gerobak Dorong

2022-08-26
Balapan Dengan Ryan

2022-08-21
Burung dengan Perasaan

2022-07-26
Pengembangan Web Agile dengan Rails 2nd

2009-06-02
Pengembangan Web Agile dengan kode sumber Rails yang menyertai buku ini

2009-06-02

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua