gpt all local - gpt all local

gpt all local

Kode sumber lainnya

1.0.0

Unduh

Menggunakan LLMS pada data pribadi, semuanya secara lokal

Proyek ini adalah latihan pembelajaran tentang penggunaan model bahasa besar (LLM) untuk mengambil informasi dari data pribadi, menjalankan semua bagian (termasuk model) secara lokal. Tujuannya adalah untuk menjalankan LLM di komputer Anda untuk mengajukan pertanyaan pada satu set file juga di komputer Anda. File dapat berupa semua jenis dokumen, seperti PDF, Word, atau file teks.

Metode menggabungkan LLM dan data pribadi ini dikenal sebagai Retrieval-Augmented Generation (RAG). Itu diperkenalkan dalam makalah ini.

Kredit di mana kredit jatuh tempo: Saya mendasarkan proyek ini pada privategpt asli (apa yang sekarang mereka sebut versi primordial ). Saya mengimplementasikan kembali potongan -potongan untuk memahami cara kerjanya. Lihat lebih banyak di bagian Sumber.

Apa yang kami coba capai: Diberikan satu set file di komputer (a), kami menginginkan model bahasa besar (b) berjalan di komputer itu untuk menjawab pertanyaan (c) pada mereka.

Apa yang ingin kami capai

Namun, kami tidak dapat memberi makan file secara langsung ke model. Model Bahasa Besar (LLM) memiliki jendela konteks yang membatasi seberapa banyak informasi yang dapat kita masukkan ke dalamnya (memori kerja mereka). Untuk mengatasi batasan itu, kami membagi file menjadi potongan -potongan kecil, disebut potongan , dan hanya memberi makan yang relevan dengan model (D).

Solusi Bagian 1

Tapi kemudian, pertanyaannya menjadi "bagaimana kita menemukan potongan yang relevan?" . Kami menggunakan Pencarian Kesamaan (E) untuk mencocokkan pertanyaan dan potongan. Pencarian kesamaan, pada gilirannya, membutuhkan embeddings vektor (F), representasi kata-kata dengan vektor yang mengkode hubungan semantik (secara teknis, vektor yang padat , tidak mengacaukannya dengan representasi vektor yang jarang seperti tas-word dan TF-IDF). Setelah kami memiliki potongan yang relevan, kami menggabungkannya dengan pertanyaan untuk membuat prompt (g) yang menginstruksikan LLM untuk menjawab pertanyaan.

Solusi Bagian 2

Kami membutuhkan satu bagian terakhir: penyimpanan persisten. Membuat embeddings untuk potongan membutuhkan waktu. Kami tidak ingin melakukan itu setiap kali kami mengajukan pertanyaan. Oleh karena itu, kita perlu menyimpan embeddings dan teks asli (potongan) di toko vektor (atau database) (h). Toko vektor dapat tumbuh besar karena menyimpan potongan teks asli dan embeddings vektornya. Kami menggunakan indeks vektor (i) untuk menemukan potongan yang relevan secara efisien.

Solusi Bagian 3

Sekarang kita memiliki semua bagian yang kita butuhkan.

Kami dapat membagi implementasi menjadi dua bagian: menelan dan mengambil data.

Konsumsi: Tujuannya adalah untuk membagi file lokal menjadi potongan -potongan kecil yang sesuai dengan ukuran input LLM (jendela konteks). Kita juga perlu membuat embeddings vektor untuk setiap potongan. Vektor embeddings memungkinkan kami untuk menemukan potongan yang paling relevan untuk membantu menjawab pertanyaan. Karena chunking dan embedding membutuhkan waktu, kami ingin melakukannya hanya sekali, jadi kami menyimpan hasilnya di toko vektor (database).
Pengambilan: Diberikan pertanyaan pengguna, kami menggunakan pencarian kesamaan untuk menemukan potongan yang paling relevan (yaitu potongan -potongan file lokal yang terkait dengan pertanyaan). Setelah kami menentukan potongan yang paling relevan, kami dapat menggunakan LLM untuk menjawab pertanyaan. Untuk melakukannya, kami menggabungkan pertanyaan pengguna dengan potongan yang relevan dan prompt menginstruksikan LLM untuk menjawab pertanyaan.

Kedua langkah ini diilustrasikan dalam diagram berikut.

Konsumsi dan pengambilan

Cara Menggunakan Proyek Ini

Jika Anda belum melakukannya, persiapkan lingkungan. Jika Anda telah menyiapkan lingkungan, aktifkan dengan source venv/bin/activate .

Ada dua cara untuk menggunakan proyek ini:

Antarmuka baris perintah: Gunakan yang ini untuk melihat lebih banyak log dan memahami apa yang sedang terjadi (lihat bendera --verbose di bawah).
Aplikasi StreamLit: Gunakan yang ini untuk pengalaman yang lebih ramah pengguna.

Antarmuka baris perintah

Salin file yang ingin Anda gunakan ke dalam folder data .
Jalankan python main.py ingest untuk menelan file ke toko vektor.
Jalankan python main.py retrieve untuk mengambil data dari toko vektor. Ini akan meminta Anda untuk mendapatkan pertanyaan.

Gunakan bendera --verbose untuk mendapatkan lebih banyak detail tentang apa yang dilakukan program di belakang layar.

Untuk memesan kembali data, hapus folder vector_store dan jalankan python main.py ingest lagi.

Aplikasi StreamLit

Jalankan streamlit run app.py Ini akan membuka aplikasi di jendela browser.

Perintah ini mungkin gagal yang pertama Anda jalankan. Ada kesalahan di suatu tempat dalam bagaimana lingkungan Python bekerja bersama dengan pyenv. Jika StreamLit menunjukkan "tidak dapat mengimpor pesan modul", nonaktifkan lingkungan Python dengan deactivate , aktifkan lagi dengan source venv/bin/activate , dan jalankan streamlit run app.py

Desain

Menelan data

Jika Anda belum melakukannya, persiapkan lingkungan. Jika Anda telah menyiapkan lingkungan, aktifkan dengan source venv/bin/activate .

Perintah: python main.py ingest [--verbose]

Tujuan dari tahap ini adalah untuk membuat data dapat dicari. Namun, pertanyaan pengguna dan konten data mungkin tidak cocok. Karena itu, kami tidak dapat menggunakan mesin pencari sederhana. Kita perlu melakukan pencarian kesamaan yang didukung oleh embeddings vektor. Penataran vektor adalah bagian terpenting dari tahap ini.

Mengonsumsi data memiliki langkah -langkah berikut:

Muat file: Pembaca dokumen yang cocok dengan jenis dokumen yang digunakan untuk memuat file. Pada titik ini, kami memiliki serangkaian karakter dengan konten file ("dokumen" mulai sekarang). Metadata, gambar, dll., Diabaikan.
Pisahkan dokumen menjadi potongan -potongan: Pembagi dokumen membagi dokumen menjadi potongan -potongan dengan ukuran yang ditentukan. Kita perlu membagi dokumen agar sesuai dengan ukuran konteks model (dan mengirim lebih sedikit token saat menggunakan model berbayar). Ukuran yang tepat dari setiap potongan tergantung pada pembagi dokumen. Misalnya, pembagi kalimat mencoba untuk berpisah di tingkat kalimat, membuat beberapa potongan lebih kecil dari ukuran yang ditentukan.
Buat embeddings vektor untuk setiap potongan: model embedding membuat embedding vektor untuk setiap potongan. Ini adalah langkah penting yang memungkinkan kita menemukan potongan yang paling relevan untuk membantu menjawab pertanyaan.
Simpan embeddings ke dalam database Vector (Store): Sambil bertahan semua pekerjaan yang kami lakukan di atas sehingga kami tidak perlu mengulanginya di masa depan.

Perbaikan di masa depan:

Parsing dokumen yang lebih cerdas. Misalnya, jangan mencampur teks gambar dengan teks bagian; Jangan mengurai bagian referensi (sebagai alternatif, ganti referensi sebaris dengan teks referensi aktual).
Meningkatkan paralelisme. Idealnya, kami ingin menjalankan seluruh alur kerja (Muat dokumen, potongan, embed, bertahan) secara paralel untuk setiap file. Ini membutuhkan solusi yang memparalelkan tidak hanya I/O-Bound tetapi juga tugas yang terikat CPU. Toko vektor juga harus mendukung banyak penulis.
Cobalah strategi chunking yang berbeda, misalnya periksa apakah splitter kalimat ( NLTKTextSplitter atau SpacyTextSplitter ) tingkatkan jawabannya.
Pilih ukuran chunking berdasarkan ukuran input LLM (konteks). Saat ini hardcoded ke sejumlah kecil, yang dapat mempengaruhi kualitas hasil. Di sisi lain, ia menghemat biaya pada LLM API. Kita perlu menemukan keseimbangan.
Otomatiskan proses konsumsi: Deteksi jika ada file baru atau yang diubah dan menelannya.

Mengambil data

Jika Anda belum melakukannya, persiapkan lingkungan. Jika Anda telah menyiapkan lingkungan, aktifkan dengan source venv/bin/activate .

Perintah: python main.py retrieve [--verbose]

Tujuan dari tahap ini adalah untuk mengambil informasi dari data lokal. Kami melakukannya dengan mengambil potongan yang paling relevan dari toko vektor dan menggabungkannya dengan pertanyaan pengguna dan prompt. Prompt menginstruksikan model bahasa (LLM) untuk menjawab pertanyaan.

Pengambilan data memiliki langkah -langkah berikut:

Temukan potongan yang paling relevan: toko vektor ditanyai untuk menemukan potongan yang paling relevan dengan pertanyaan.
Gabungkan potongan -potongan dengan pertanyaan dan prompt: potongan -potongan dikombinasikan dengan pertanyaan dan prompt. Prompt menginstruksikan LLM untuk menjawab pertanyaan.
Kirim teks gabungan ke LLM: Teks gabungan dikirim ke LLM untuk mendapatkan jawabannya.

Perbaikan di masa depan:

Tambahkan langchain callbacks untuk melihat langkah -langkah proses pengambilan.
Tingkatkan prompt untuk menjawab hanya dengan apa yang ada di dokumen lokal, misalnya "hanya menggunakan informasi dari dokumen berikut: ...". Tanpa langkah ini model tampaknya memimpikan jawaban dari data pelatihan, yang tidak selalu relevan.
Tambahkan moderasi untuk memfilter jawaban ofensif.
Tingkatkan jawaban dengan reranking: "Fetch hasil pencarian kami secara berlebihan, dan kemudian secara deterministik Rerank berdasarkan pengubah atau set pengubah." .
Coba berbagai jenis rantai (terkait dengan titik sebelumnya).

Meningkatkan hasil

Kami harus membuat beberapa kompromi untuk membuatnya berjalan pada mesin lokal dalam waktu yang wajar.

Kami menggunakan model kecil. Yang ini sulit diubah. Model harus berjalan pada CPU dan sesuai dengan memori.
Kami menggunakan ukuran embedding kecil. Kita dapat meningkatkan ukuran embedding jika kita menunggu lebih lama untuk proses konsumsi.
Jaga agar semuanya tetap sama dan cobalah rantai yang berbeda.

Sumber

Sebagian besar kode konsumsi/retrieve didasarkan pada privategrt asli, yang mereka sebut sekarang primordial .

Apa yang berbeda:

Aplikasi StreamLit untuk UI.
Gunakan embeddings yang lebih baru dan versi model bahasa besar.
Memodernisasi kode Python. Misalnya, ia menggunakan pathlib alih -alih os.path dan memiliki logging yang tepat alih -alih pernyataan cetak.
Menambahkan lebih banyak penebangan untuk memahami apa yang sedang terjadi. Gunakan bendera --verbose untuk melihat detailnya.
Menambahkan program utama untuk menjalankan langkah -langkah konsumsi/mengambil.
Mengisi requirements.txt dengan dependensi tidak langsung, misalnya, untuk transformator huggingface dan loader dokumen Langchain.

Lihat file ini untuk lebih banyak catatan yang dikumpulkan selama pengembangan proyek ini.

Mempersiapkan lingkungan

Ini adalah langkah satu kali. Jika Anda telah melakukan ini, cukup aktifkan lingkungan virtual dengan source venv/bin/activate .

Lingkungan Python

Jalankan perintah berikut untuk membuat lingkungan virtual dan menginstal paket yang diperlukan.

python3 -m venv venv
source venv/bin/activate
pip install --upgrade pip
pip install -r requirements.txt

Parsing PDF

PDF parser di unstructured adalah lapisan di atas paket parser yang sebenarnya. Ikuti instruksi dalam peluru readme unstructured , di bawah peluru "instal sistem dependensi berikut". Paket poppler dan tesseract diperlukan (abaikan yang lain).

Model

Saya sarankan mulai dengan model kecil yang berjalan di CPU. GPT4ALL memiliki daftar model di sini. Saya diuji dengan Mistral-7b-Openorca Q4. Ini membutuhkan 8 GB RAM untuk dijalankan. Perhatikan bahwa beberapa model memiliki lisensi yang membatasi. Periksa lisensi sebelum menggunakannya dalam proyek komersial.

Buat models bernama folder.
Klik di sini untuk mengunduh Mistral 7B Openorca (Download 3,8 GB, RAM 8 GB).
Salin model ke folder models .

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-05-24
ukuran 220.18KB
Berasal dari Github

Aplikasi Terkait

Film dan televisi GPT versi terbaru

2023-10-30
Cinta Ada di Sekitar

2023-10-24
Semua E

2022-09-02
Seharian Mati

2022-08-23
Hancurkan Semua Manusia

2022-08-10
Bangun Sepanjang Malam

2022-07-24

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua