Mengobrol dengan data perusahaan Anda menggunakan LLM
Sampel ini menunjukkan beberapa pendekatan untuk membuat pengalaman seperti chatgpt melalui data Anda sendiri. Ini menggunakan layanan Azure OpenAi untuk mengakses model chatgpt (GPT-35-Turbo dan GPT3), dan toko vektor (Pinecone, Redis dan lainnya) atau pencarian kognitif Azure untuk pengindeksan data dan pengambilan.
Repo menyediakan cara untuk mengunggah data Anda sendiri sehingga siap untuk mencoba mengakhiri ke akhir.
Pembaruan
- 3/30/2024 - Refaktor untuk terus mengobrol, aliran obrolan, QNA, unggah dan fungsionalitas admin. Semua yang lain akan dipindahkan ke repo itu sendiri.
- 3/10/2024 - Pindahkan versi aliran cepat ke ENTAOIPF
- 3/9/2024 - Versi awal teknik kain canggih dan pola kain multi -modal
- 2/28/2024 - Fitur analisis SEC yang dihapus dan dipindahkan ke repo sendiri di SEC
- 1/28/2024 - Hapus fitur pitchbook saat dipindahkan ke repo sendiri di PIB
- 1/19/2024 - Memperbarui paket Python & OpenAi> 1.0. Perubahan yang dilakukan untuk semua API Python untuk memecahkan perubahan yang diperkenalkan di Openai dan Langchain.
- 10/12/2023 - Versi awal flow flow otonom. Untuk saat ini mendukung indeks Pinecone, tetapi dukungan untuk pencarian kognitif dan Redis akan segera diperbarui.
- 9/29/2023 - Menambahkan Evaluasi PromptFlow. Aliran cepat setelah dibuat di Azure ML, dapat dilampirkan pada menjalankan yang ada untuk mengevaluasi terhadap proses evaluasi berikut:
- Lengkap-Aliran evaluasi groundedness Q&A akan mengevaluasi sistem generasi augmented T&J dengan memanfaatkan model bahasa besar yang canggih (LLM) untuk mengukur kualitas dan keamanan tanggapan Anda. Memanfaatkan GPT-3.5 sebagai model bahasa untuk membantu dengan pengukuran bertujuan untuk mencapai kesepakatan tinggi dengan evaluasi manusia dibandingkan dengan pengukuran matematika tradisional. gpt_groundedness (terhadap konteks): Mengukur seberapa didasarkan jawaban yang diprediksi model bertentangan dengan konteksnya. Bahkan jika tanggapan LLM benar, jika tidak dapat diverifikasi terhadap konteks, maka tanggapan tersebut dianggap tidak ditumbuhkan.
- ADA Kesamaan-Aliran evaluasi T&J ADA_SIMILARITY akan mengevaluasi sistem generasi augmented pengambilan T&J dengan memanfaatkan model bahasa besar yang canggih (LLM) untuk mengukur kualitas dan keamanan tanggapan Anda. Memanfaatkan GPT-3.5 sebagai model bahasa untuk membantu dengan pengukuran bertujuan untuk mencapai kesepakatan tinggi dengan evaluasi manusia dibandingkan dengan pengukuran matematika tradisional. Aliran evaluasi kesamaan ADA memungkinkan Anda untuk menilai dan mengevaluasi model Anda dengan Metri Kesamaan ADA yang dibantu LLM Metri ADA_SIMILARITY: mengukur kesamaan kosinus dari embeddings ADA dari prediksi model dan kebenaran dasar. Ada_similarity adalah nilai dalam kisaran [0, 1].
- Koherensi-Aliran evaluasi koherensi T&J akan mengevaluasi sistem generasi augmented T&J dengan memanfaatkan model bahasa besar (LLM) yang canggih untuk mengukur kualitas dan keamanan respons Anda. Memanfaatkan GPT-3.5 sebagai model bahasa untuk membantu dengan pengukuran bertujuan untuk mencapai kesepakatan tinggi dengan evaluasi manusia dibandingkan dengan pengukuran matematika tradisional. Aliran evaluasi koherensi memungkinkan Anda untuk menilai dan mengevaluasi model Anda dengan metrik koherensi yang dibantu LLM. GPT_KOHERENCE: Mengukur kualitas semua kalimat dalam jawaban yang diprediksi model dan bagaimana mereka cocok bersama secara alami. Koherensi dicetak pada skala 1 hingga 5, dengan 1 menjadi yang terburuk dan 5 menjadi yang terbaik.
- Kesamaan-Aliran evaluasi kesamaan T&J akan mengevaluasi sistem generasi augmented T&J dengan memanfaatkan model bahasa besar yang canggih (LLM) untuk mengukur kualitas dan keamanan tanggapan Anda. Memanfaatkan GPT-3.5 sebagai model bahasa untuk membantu dengan pengukuran bertujuan untuk mencapai kesepakatan tinggi dengan evaluasi manusia dibandingkan dengan pengukuran matematika tradisional. Aliran evaluasi kesamaan memungkinkan Anda untuk menilai dan mengevaluasi model Anda dengan metrik kesamaan yang dibantu LLM. GPT_SIMILARITY: Mengukur kesamaan antara jawaban kebenaran tanah yang disediakan pengguna dan model yang diprediksi jawaban. Kesamaan dicetak pada skala 1 hingga 5, dengan 1 menjadi yang terburuk dan 5 menjadi yang terbaik.
- Skor F1-Aliran evaluasi SCOR-F1 T&J akan mengevaluasi sistem generasi augmented Tanya Jawab menggunakan skor F1 berdasarkan jumlah kata dalam jawaban yang diprediksi dan kebenaran ground. Aliran evaluasi skor F1 memungkinkan Anda untuk menentukan metrik skor F1 menggunakan jumlah token umum antara versi dinormalisasi dari kebenaran dasar dan jawaban yang diprediksi. F1-SCORE: Hitung skor F1 berdasarkan token dalam jawaban yang diprediksi dan kebenaran dasar. F1-Score adalah nilai dalam kisaran [0, 1]. Metrik groundedness dinilai pada skala 1 hingga 5, dengan 1 menjadi yang terburuk dan 5 menjadi yang terbaik.
- 9/22/2023 - Menambahkan PromptFlow untuk Sqlask. Pastikan nilai konfigurasi
PFSQLASK_URL dan PFSQLASK_KEY ditambahkan ke titik akhir yang digunakan untuk mengaktifkan fitur. Pastikan juga SynapseName , SynapsePool , SynapseUser dan SynapsePassword nilai konfigurasi ditambahkan ke koneksi promptflow entaoai . Pindah menghapus kemampuan sesi untuk halaman chatgpt ke admin. - 9/20/2023 - Menambahkan konfigurasi untuk memungkinkan pengguna akhir mengubah jenis pencarian untuk indeks toko vektor pencarian kognitif (hybrid, kesamaan/vektor dan peringkat ulang hibrida), berdasarkan praktik terbaik yang kami bagikan. QNA, obrolan dan aliran cepat dimodifikasi. QNA dan obrolan menerapkan implementasi toko vektor yang disesuaikan dari langchain dan aliran cepat menggunakan fungsi helper. Memperbaiki masalah dengan QNA/Chat/PromptFlow tidak menghasilkan pertanyaan tindak lanjut.
- 9/18/2023 - SQL NLP refactored untuk tidak menggunakan agen/rantai database Langchain dan sebaliknya menggunakan prompt khusus.
- 9/15/2023 - Memodifikasi Paket Pencarian Azure menjadi 11.4.0B9 dan Langchain ke versi terbaru. Kemampuan tambahan untuk melakukan evaluasi pada promptflow untuk QNA dan obrolan. BERT PDF dan data evaluasi dapat digunakan untuk melakukan batch dan evaluasi dalam aliran cepat. Contoh notebook yang menampilkan aliran dan proses E2E tersedia. Folder Bert Chat memungkinkan Anda untuk menguji aliran cepat E2E, menjalankan batch dan evaluasi dalam bentuk notebook.
- 9/3/2023 - Menambahkan API untuk obrolan menggunakan aliran prompt. Izinkan pengguna akhir untuk memilih antara fungsi Azure sebagai API (konfigurasi
ApiType di aplikasi web) atau menggunakan titik akhir yang dikelola aliran prompt. - 9/2/2023 - Menambahkan API untuk menjawab pertanyaan menggunakan aliran cepat. Izinkan pengguna akhir untuk memilih antara fungsi Azure sebagai API (konfigurasi
ApiType di aplikasi web) atau menggunakan titik akhir yang dikelola aliran prompt. - 8/31/2023 - Menambahkan contoh untuk llmops menggunakan aliran prompt. Repo akan menambahkan fleksibilitas untuk menggunakan model yang digunakan aliran cepat sebagai alternatif untuk fungsi Azure saat ini.
- 8/20/2023 - Menambahkan dukungan untuk file markdown (sebagai file zip) dan menghapus chunk_size = 1 dari azure openaiembedding
- 8/11/2023 - Memperbaiki masalah dengan fitur Obrolan Streaming.
- 8/10/2023 - Breaking Changes - Refactored semua kode untuk menggunakan nilai konfigurasi
OpenAiEndPoint alih -alih OpenAiService . Ini untuk mendukung praktik terbaik karena diuraikan dalam pencatatan perusahaan melalui manajemen API Azure. OpenAiEndPoint Anda jika menggunakan APIM akan menjadi API Gateway URL dan OpenAiKey akan menjadi kunci produk/tidak terbatas. Jika tidak menggunakan APIM, Anda tidak perlu mengubah kunci, tetapi pastikan OpenAiEndPoint adalah URL yang sepenuhnya memenuhi syarat dari penyebaran AOAI Anda. OpenAiService tidak lagi digunakan. Perubahan memang memengaruhi fitur kerja pada obrolan pada stream, sehingga dinonaktifkan untuk saat ini dan akan diaktifkan setelah diuji dan diperbaiki. - 8/9/2023 - Menambahkan fungsi panggilan di antarmuka chatgpt sebagai kotak centang. Sampel menunjukkan kemampuan untuk memanggil fungsi. Saat ini API cuaca, API stok dan pencarian Bing didukung. Panggilan fungsi dalam pratinjau dan hanya didukung dari "versi API" dari "2023-07-01-preview", jadi pastikan Anda memperbarui penyebaran yang ada untuk menggunakan versi itu. Detail tentang fungsi panggilan. Untuk penyebaran yang ada, Tambah
WeatherEndPoint , WeatherHost , StockEndPoint , StockHost dan RapidApiKey Configuration ke Azure Function App. - 8/5/2023 - Menambahkan antarmuka obrolan dengan opsi "Stream". Fitur ini memungkinkan Anda untuk melakukan streaming percakapan ke klien. Anda perlu menambahkan
OpenAiChat , OpenAiChat16k , OpenAiEmbedding , OpenAiEndPoint , OpenAiKey , OpenAiApiKey , OpenAiService , OpenAiVersion , PineconeEnv , PineconeIndex , PineconeKey , RedisAddress , RedisPassword , RedisPort Properti di Layanan Webappe (Webapp) ke Endispassword. - 7/30/2023 - Kode yang tidak digunakan yang dihapus - Ringkasan dan obrolan
- 7/28/2023 - Mulai menghapus penggunaan model DaVinci. Untuk saat ini menghapus penggunaan dari semua fungsi kecuali lokakarya. Fungsi ringkasan refactored berdasarkan umpan balik untuk memungkinkan pengguna menentukan topik prompt dan yang telah ditentukan sebelumnya untuk merangkumnya.
- 7/26/2023 - Hapus taman bermain openai dari alat pengembang karena fitur canggih yang tersedia di bagian chatgpt.
- 7/25/2023 - Tambahkan tab untuk kemampuan obrolan untuk mendukung kemampuan chatgpt langsung dari model alih -alih "obrolan di data". Anda perlu menambahkan properti
CHATGPT_URL di Azure App Service (WebApp) untuk mengaktifkan fitur di luar penyebaran fungsi Azure baru. - 7/23/2023 - Menambahkan sisa fitur untuk PIB UI dan versi awal menghasilkan dek PowerPoint sebagai output. Untuk fitur baru ditambahkan, pastikan Anda menambahkan variabel
FMPKEY ke konfigurasi webapp. - 7/20/2023 - Menambahkan fitur untuk berbicara dengan data PIB (pengarsipan SEC & transkrip panggilan penghasilan). Karena fungsi Azure baru digunakan, pastikan properti
PIBCHAT_URL ditambahkan ke Azure Webapp dengan URL untuk fungsi Azure yang Anda gunakan - 7/18/2023 - Memperbaiki kode PIB untuk menyelesaikan beberapa masalah kinerja dan perbaikan bug.
- 7/17/2023 - Dihapus antarmuka obrolan GPT3 dengan pensiun model "davinci".
- 7/16/2023 - Versi awal PIB UI (saat ini mendukung 5 langkah - profil perusahaan, transkrip panggilan, siaran pers, pengarsipan SEC dan peringkat/rekomendasi). Anda akan memerlukan akses ke langganan berbayar (FMP atau Modifikasi berdasarkan apa yang dapat diakses oleh perusahaan Anda). Untuk digunakan dengan FMP Anda perlu menambahkan
FmpKey dalam fungsi Azure. Karena ketergantungan melingkar, Anda perlu secara manual menambahkan SecDocPersistUrl dan SecExtractionUrl secara manual dalam fungsi Azure. - 7/14/2023 - Tambahkan dukungan untuk model GPT3.5 16K dan kemampuan untuk mendokumentasikan dokumen> 4000 token dengan> 500 tumpang tindih. Untuk chunksize> 4000, itu akan default ke 16k token untuk fungsi QNA dan obrolan. Menambahkan penyedia identitas ke aplikasi dan otentikasi untuk antarmuka QNA dan obrolan. Untuk model GPT3.5 16K, Anda perlu menambahkan properti
OpenAiChat16k di aplikasi fungsi Azure. - 7/13/2023 - Izinkan pengguna akhir untuk memilih konfigurasi chunksize dan chunkoverlap. Versi awal templat prompt utama.
- 7/11/2023 - Kopilot PIB fungsional dalam bentuk notebook.
- 7/8/2023 - Menambahkan fitur untuk mengganti nama sesi untuk chatgpt. Juga menambahkan UI untuk alat evaluator. Fitur ini berfokus pada melakukan evaluasi berbasis LLM pada dokumen Anda. Ini secara otomatis menghasilkan dataset uji (dengan pertanyaan dan jawaban) dan melakukan penilaian pada dokumen itu menggunakan parameter yang berbeda dan menghasilkan hasil evaluasi. Ini dibangun di atas fungsi Azure yang tahan lama dan diimplementasikan menggunakan pola rantai fungsi. Anda perlu menambahkan
BLOB_EVALUATOR_CONTAINER_NAME (pastikan nama kontainer yang sama dibuat di akun penyimpanan) dan konfigurasi RUNEVALUATION_URL (url dari penyebaran fungsi tahan lama) dalam aplikasi web azure untuk penyebaran yang ada dan jika Anda ingin menggunakan fitur evaluator. Dalam fungsi AZURE Penyebaran, tambahkan AzureWebJobsFeatureFlags (Nilai Enable EnableWorkerIndexing) dan pengaturan OpenAiEvaluatorContainer . - 7/5/2023 - Menambahkan fitur untuk menghapus sesi. Fitur itu membutuhkan fitur yang ada dalam pratinjau dan Anda perlu mengaktifkannya pada akun CosmosDB pada langganan Anda. Menambahkan blok mencoba/menangkap sederhana jika Anda belum mengaktifkan/menggunakan CosmosDB untuk melanjutkan implementasi chatgpt.
- 7/4/2023 - Versi awal penyimpanan "sesi" untuk antarmuka GPT3.5/ChatGPT. Sesi dan pesan disimpan/diambil dari CosmosDB. Pastikan Anda memiliki layanan CosmosDB yang disediakan atau buat yang baru (untuk penyebaran yang ada). Anda perlu menambahkan pengaturan
CosmosEndpoint , CosmosKey , CosmosDatabase dan CosmosContainer di aplikasi Azure Functions dan Web App. - 6/25/2023 - Notebook yang menampilkan evaluasi kualitas jawaban dengan cara sistematis (pertanyaan pembangkit otomatis dan rantai evaluasi), pendukung pengaturan QA LLM (ukuran chunk, tumpang tindih, teknik embedding). Lihat buku catatan evaluator untuk informasi lebih lanjut.
- 6/18/2023 - Tambahkan halaman admin yang mendukung manajemen basis pengetahuan.
- 6/17/2023 - Menambahkan tombol "Daftar Pertanyaan" untuk mengajukan fitur pertanyaan untuk menampilkan daftar semua pertanyaan yang ada di basis pengetahuan. Mengikuti tiga properti
SEARCHSERVICE , SEARCHKEY dan KBINDEXNAME (nilai default Aoaikb) perlu ditambahkan ke layanan aplikasi Azure untuk mengaktifkan fitur "daftar pertanyaan". - 6/16/2023 - Tambahkan fitur untuk menggunakan pencarian kognitif Azure sebagai toko vektor untuk menyimpan basis pengetahuan yang di -cache. Pertanyaan -pertanyaan yang tidak ada dalam KB dikirim ke model LLM untuk menemukan jawabannya melalui OAI, atau ditanggapi kembali dari datastore yang di -cache. Properti baru
KbIndexName perlu ditambahkan ke aplikasi fungsi Azure. Menambahkan notebook untuk menguji fitur sebagai bagian dari lokakarya. TODO: Tambahkan fitur untuk menambahkan pertanyaan ke KB dari antarmuka obrolan (dan membuatnya berbasis sesi). Fitur yang lebih jauh untuk "meregenerasi" jawaban dari LLM (bukan jawaban di -cache) akan segera ditambahkan. - 6/7/2023 - Tambahkan Openai Playground di alat pengembang dan versi awal membangun kopilot (untuk saat ini dengan notebook, tetapi akhirnya akan dipindahkan sebagai fitur kopilot). Tambahkan skrip, perekaman, dan contoh untuk kasus penggunaan analitik wicara real-time. Lebih banyak yang akan ditambahkan segera.
- 5/27/2023 - Tambahkan konten lokakarya dalam bentuk notebook yang dapat dimanfaatkan untuk mempelajari/mengeksekusi skenario. Anda dapat menemukan notebook di folder lokakarya. Detail tentang konten lokakarya tersedia di sini.
- 5/26/2023 - Tambahkan fitur Summarisasi untuk meringkas dokumen baik menggunakan barang, mapreduce atau sempurnakan ringkasan. Untuk menggunakan fitur ini (pada penyebaran yang ada) Pastikan Anda menambahkan konfigurasi
OpenAiSummaryContainer ke Fungsi APP dan BLOB_SUMMARY_CONTAINER_NAME Configuration ke Azure App Service (pastikan bahwa nilai yang Anda masukkan sama dengan nama kontainer dalam penyimpanan Azure dan bahwa Anda telah membuat kontainer). Anda juga perlu menambahkan Konfigurasi PROCESSSUMMARY_URL ke Azure App Service (pastikan nilai yang Anda masukkan sama dengan URL fungsi Azure). - 5/24/2023 - Tambahkan fitur untuk mengunggah file CSV dan agen CSV untuk menjawab/mengobrol dengan data tabel. Smart Agent juga mendukung menjawab pertanyaan tentang data CSV.
- 5/22/2023 - Versi awal "Agen Cerdas" yang memberi Anda fleksibilitas untuk berbicara dengan semua dokumen yang diunggah dalam solusi. Ini juga memungkinkan Anda untuk berbicara dengan skenario basis data SQL. Karena lebih banyak fitur ditambahkan, agen akan terus membangunnya (misalnya berbicara dengan CSV/Excel atau data tabel)
- 5/21/2023 - Tambahkan Bagian Alat Pengembang - Konversi Kode Eksperimental dan Guru Prompt.
- 5/17/2023 - Ubah Sumber Edgar ke toko vektor pencarian kognitif, bukan Redis.
- 5/15/2023 - Tambahkan opsi untuk menggunakan "Pencarian Kognitif" sebagai toko vektor untuk menyimpan indeks. Pencarian kognitif Azure menawarkan pencarian vektor murni dan pengambilan hibrida-serta sistem peringkat ulang yang canggih yang ditenagai oleh Bing dalam satu solusi terintegrasi. Mendaftar. Dukungan mengunggah dokumen kata.
- 5/10/2023 - Tambahkan opsi tentang bagaimana dokumen harus dipotong. Jika Anda ingin menggunakan formulir pengenal, pastikan sumber daya pengenal formulir dibuat dan pengaturan aplikasi yang sesuai
FormRecognizerKey dan FormRecognizerEndPoint dikonfigurasi. - 5/07/2023 - Opsi tersedia untuk memilih Azure OpenAi atau OpenAI. Untuk OpenAi Pastikan Anda memiliki
OpenAiApiKey dalam pengaturan fungsi Azure. Untuk Azure OpenAi Anda akan membutuhkan pengaturan titik akhir OpenAiKey , OpenAiService dan OpenAiEndPoint . Anda juga dapat memilih opsi itu untuk obrolan/pertanyaan/SQL NLP/analitik ucapan dan fitur lainnya (dari halaman Pengaturan Pengembang). - 5/03/2023 - Kata sandi diperlukan untuk diunggah dan diperkenalkan halaman admin dimulai dengan manajemen indeks
- 4/30/2023 - Versi awal fitur agen tugas ditambahkan. Agen otonom adalah agen yang dirancang untuk lebih lama berjalan. Anda memberi mereka satu atau beberapa tujuan jangka panjang, dan mereka secara mandiri melaksanakan tujuan tersebut. Aplikasi menggabungkan penggunaan alat dan memori jangka panjang. Fitur awal mengimplementasikan bayi AGI dengan alat eksekusi
- 4/29/2023 - Integrasi proses AWS S3 Menggunakan S3, Fungsi AWS Lambda dan Pabrik Data Azure (Penyebaran Otomatis Belum tersedia, skrip tersedia di/Folder Penyebaran/AWS)
- 4/28/2023 - Perbaiki bug, kutipan & pertanyaan tindak lanjut di seluruh QA & obrolan. Sedikit lebih ketat untuk membatasi respons dari dokumen.
- 4/25/2023 - Versi awal Power Virtual Agent
- 4/21/2023 - Tambahkan SQL Query & SQL Data Tab ke SQL NLP dan perbaiki kutipan & pertanyaan tindak lanjut untuk obrolan & fitur Tanya
- 4/17/2023 - Analisis pidato real -time dan pidato untuk teks dan teks untuk berbicara untuk obrolan & meminta fitur. (Anda dapat mengonfigurasi fitur teks ke ucapan dari pengaturan pengembang. Anda akan membutuhkan layanan pidato Azure)
- 4/13/2023 - Tambahkan fitur baru untuk mendukung pertanyaan yang diajukan pada beberapa dokumen menggunakan agen qa vektor
- 4/8/2023 - Tanyakan SQL Anda - Menggunakan SQL Database Agent atau menggunakan rantai database SQL
- 3/29/2023 - Script Penempatan Otomatis
- 3/23/2023 - Tambahkan Pencarian Kognitif sebagai Opsi untuk Menyimpan Dokumen
- 3/19/2023 - Tambahkan Implementasi Obrolan GPT3
- 3/18/2023 - API untuk menghasilkan ringkasan tentang dokumen & sampel QA
- 3/17/2023
- Dukungan mengunggah banyak dokumen
- Perbaikan Bug - Implementasi Redis Vectorstore
- 3/16/2023 - rilis awal, tanyakan data Anda dan mengobrol dengan data Anda
Situs web uji
Mengobrol dan tanyakan melalui data Anda
Fitur
Daftar fitur
Arsitektur

Arsitektur Azure

QA atas data Anda dengan cache

Evaluasi QA LLM

Memulai
Mulai
Konfigurasi
Konfigurasi Aplikasi dan Fungsi Aplikasi
Sumber daya
- Revolusi data perusahaan Anda dengan chatgpt: Aplikasi generasi berikutnya dengan OpenAi dan pencarian kognitif
- Pencarian kognitif Azure
- Layanan Openai Azure
- Pencarian Redis
- Pinecone
- Toko Vektor Pencarian Kognitif
Kontribusi
Kami terbuka untuk kontribusi, apakah itu dalam bentuk fitur baru, memperbarui fungsionalitas yang ada atau dokumentasi yang lebih baik. Harap buat permintaan tarik dan kami akan meninjau dan menggabungkannya.
Catatan
Diadaptasi dari repo di Openai-Cogsearch, Call Center Analytics, Auto Evaluator dan Edgar Crawler