Unduh erdos_paware - Unduh Kode Sumber erdos

erdos_paware

Kode sumber lainnya

1.0.0

Unduh

Pawsitive Retrieval (Proyek Data Sadar)

Proyek ini diselesaikan oleh Marcos Ortiz, Sayantan Roy, Karthik Prabhu, Kristina Knowles, dan Diptanil Roy, sebagai bagian dari kamp pelatihan Deep Learning Institute Erdös (Spring, 2024).

Proyek kami dirinci di bawah ini, dan Anda dapat mengikuti langkah -langkah utama melalui notebook dan data demonstrasi yang disediakan di PAW_DEMO/ direktori.

Empat notebook pertama berjalan melalui demonstrasi menggunakan sebagian kecil dari data. Notebook terakhir memberikan ringkasan hasil kami di seluruh dataset.

Notebook 1 - memuat, preprocessing, dan data embedding
Notebook 2 - Menghasilkan Data Sentimen
Notebook 3 - Melampirkan metadata tambahan
Notebook 4 - Pengindeksan dan Permintaan
Notebook 5 - Mengevaluasi Hasil (Dataset Lengkap)

Tujuan

Diberikan permintaan pengguna yang sewenang-wenang dan set data konten yang dihasilkan manusia, bangun algoritma untuk mengidentifikasi dan memberi peringkat konten yang relevan dalam dataset, sehingga set kecocokan dapat diambil dengan cepat dan akurat

Kita tahu bahwa aplikasi akhirnya untuk hasil proyek kami digunakan dalam pipa generasi pengambilan (RAG). Makalah survei baru -baru ini, menggambarkan keadaan kain saat ini untuk model bahasa besar (LLM) membantu memberikan beberapa wawasan tentang alat apa yang mungkin cocok untuk tugas dan data khusus kami.

Langkah utama dalam kain adalah:

Dokumen Pengindeksan
Mengambil dokumen yang paling relevan, diberikan permintaan pengguna
Menghasilkan output menggunakan LLM

Dataset

Data mentah yang diberikan kepada kami terdiri dari 5.528.298 posting dari Reddit, dari 34 subreddits. Data ini disediakan dalam file parket, bersama dengan kamus data.

Pendekatan kami

Untuk proyek ini, kami fokus pada dua langkah pertama proses RAG: pengindeksan dan pengambilan.

Hasil dan pipa pemrosesan permintaan

Pengindeksan

Preprocessing data

Dimulai dengan data mentah, kami melakukan beberapa pembersihan dasar:

Baris yang dijatuhkan dengan nilai reddit_text dari "[deleted]" atau "removed" .
Baris yang dijatuhkan yang dianggap sebagai bot atau meme.
- Ini dilakukan dengan memfilter setiap baris dengan nilai reddit_text yang panjangnya setidaknya 35 karakter, dan muncul lebih dari 7 kali. Kami tidak ingin segera menjatuhkan frasa umum yang lebih pendek, jika mereka mungkin berguna nanti (lihat menggunakan metadata yang direkayasa).
Menangani nilai reddit_text kosong.
- Hampir tidak ada komentar (sebagai lawan dari pengiriman) yang memiliki nilai kosong. Beberapa cukup sehingga mereka dapat diperiksa secara manual. Tampaknya posting -posting ini telah dihapus, atau diedit sehingga kosong oleh penulis asli. Baris -baris ini dijatuhkan.
- Inspeksi pengajuan sepintas dengan nilai -nilai kosong mengungkapkan bahwa reddit_title adalah proxy untuk reddit_text . Jadi, kami mengganti reddit_text kosong dengan reddit_title dalam hal ini.

Model penyematan

Kami menggunakan versi dasar dari model Embeddings Teks Umum (GTE), yang didasarkan pada Kerangka Bert. Dokumentasi tentang Huggingface: Tautan.

Kami memilih model ini karena tampaknya ukuran yang masuk akal (0,22GB), ini adalah open source, dan memungkinkan penyematan teks dengan panjang 512 token. Ini berkinerja sangat baik dalam pengelompokan dan pengambilan dibandingkan dengan transformator kalimat open source lainnya yang memiliki parameter kurang dari 250m: tautan.

Selain itu, bagian dari pelatihannya dilakukan dengan menggunakan data Reddit, yang menambah daya tariknya.

Kami mempertimbangkan eksperimen dengan model lain, tetapi karena biaya komputasi yang tinggi untuk menanamkan dataset dengan setiap model baru, kami menyimpan jalan ini untuk pekerjaan di masa depan.

Parameter yang menanamkan

Kami menggunakan kerangka kerja transformator kalimat yang disediakan oleh Sbert untuk mengimplementasikan model penyematan kami, serta memeluk alat embedding wajah yang disediakan oleh Langchain

Selama embedding kami mempertimbangkan parameter berikut:

chunk_size : panjang maksimum teks untuk disematkan sebagai dokumen
chunk_overlap : Setiap kali dokumen perlu dipecah menjadi potongan -potongan, berapa banyak yang harus mereka tumpang tindih

Kami juga bereksperimen dengan melampirkan metadata ke potongan sebelum menanamkan. Untuk melakukan ini, kami cukup menambahkan judul subreddit (atau perkiraan) ke awal potongan teks sebelum menanamkan. Misalnya, jika ada komentar di FedExers yang mengatakan "Saya sangat suka bekerja di sini karena ..." maka kita akan menambahkan "FedEx" sampai awal chunk dan menanamkan "FedEx n n Saya sangat suka bekerja di sini karena ..."

Intuisi kami adalah bahwa, dalam kasus -kasus di mana sebuah pos tidak secara eksplisit memasukkan nama perusahaan yang mereka diskusikan, kami dapat menyimpulkan informasi itu dari subreddit dan bahwa ini mungkin mendorong vektor itu lebih dekat dengan kueri kami. Misalnya, jika kita bertanya, "Mengapa karyawan suka bekerja di Disney?" dan “Mengapa karyawan suka bekerja di FedEx?” Harapan kami adalah bahwa penambahan metadata membuatnya lebih mungkin bahwa komentar di atas muncul lebih tinggi dalam hasil untuk kueri FedEx, dan mungkin lebih rendah dalam hasil untuk permintaan Disney.

Kami menggunakan sorotan untuk memvisualisasikan efek pada sampel kecil dari data kami.

Menanamkan tanpa metadata:

Menanamkan tanpa metadata

Menanamkan dengan metadata:

Menanamkan dengan metadata

Database vektor

Kami memilih LandedB (tautan) untuk menangani kebutuhan basis data vektor kami. LandedB adalah opsi open source, dan memberikan integrasi dengan Python dan Polar, yang keduanya sangat kami andalkan.

Indeks Ann

LANCEDB menyediakan kombinasi dan indeks file terbalik (IVF) dan kuantisasi produk (PQ) untuk membangun perkiraan indeks tetangga terdekat (JST).

Kedua bagian dari indeks IVF-PQ dapat disesuaikan dengan menyesuaikan parameter berikut:

Selama pengindeksan:
- Jumlah partisi dalam bagian IVF indeks.
- Jumlah sub-vektor yang akan dibuat selama PQ.
Selama pengambilan:
- Jumlah partisi untuk menyelidiki hasil.
- "Faktor penyempurnaan" yang memperluas jumlah hasil yang diambil dalam memori, dan peringkat ulang menggunakan vektor penuh (pra-PQ) mereka.

Kami memperbaiki parameter pengindeksan, dan memvariasikan parameter pengambilan. Padahal, jika waktu diizinkan, kita mungkin bervariasi untuk melihat bagaimana waktu pengambilan dan akurasi terpengaruh.

Pengambilan

Selain parameter kueri yang dibangun ke dalam indeks JST kami, kami memvariasikan variabel pra-retrieval dan pasca-retrieval lainnya untuk mencoba dan meningkatkan hasil keseluruhan kami.

Pra-retrieval

Prefiltering

Saat memberi label data, kami melihat jenis hasil umum dari hasil "terkait tetapi tidak relevan": reddit_text yang mengajukan pertanyaan yang mirip dengan kueri itu sendiri.

Sebagian besar waktu, teks -teks ini berasal dari submission (sebagai lawan komentar). Jadi, salah satu cara untuk mencoba dan meningkatkan hasil yang lebih relevan mungkin dengan menghilangkannya dari pencarian vektor. Ini cukup mudah, mengingat bahwa informasi ini terkandung dalam metadata asli kami.

Lebih jarang, tetapi masih cukup untuk diperhatikan, comment akan menunjukkan properti ini. Untuk mencoba dan mengekang dampaknya, kami merekayasa kolom metadata is_short_question untuk mencoba dan mengidentifikasi semua contoh reddit_text yang mengajukan pertanyaan singkat (dan dengan demikian tidak mungkin memberikan informasi yang berguna untuk menjawab pertanyaan -pertanyaan itu) sehingga mereka juga dapat disaring sebelum pencarian.

Pasca-retrieval

Untuk meningkatkan peringkat hasil setelah pengambilan, kami merekayasa beberapa metadata pemujaan yang memungkinkan kami memanfaatkan informasi yang disediakan oleh konten balasan.

Menggunakan metadata yang direkayasa

Kami merekayasa dua jenis metadata:

Ukuran sentiment balasan dan,
Ukuran agree_distance (dan disagree_distance ) untuk balasan.

Dalam kasus reply_sentiment , kami menggunakan model pemrosesan bahasa alami yang sudah terlatih yang disebut "MRM8488/Distilroberta-Finetuned-Finansial-News-Analysis", untuk mengukur nada emosional di balik teks. Model ini membantu kami untuk mengklasifikasikan setiap balasan ke dalam kategori seperti positif, netral, atau negatif. Skor sentimen dari semua balasan kemudian dikumpulkan untuk mencerminkan sentimen keseluruhan terhadap setiap posting asli dan komentar berikut. Asumsi yang mendasari di sini adalah bahwa posting yang menghasilkan balasan positif yang dominan cenderung konstruktif dan informatif, sehingga berfungsi sebagai proksi untuk dukungan pengguna yang mirip dengan Upvotes di Reddit. Hipotesis kami adalah bahwa posting dengan balasan yang lebih positif akan lebih cenderung berisi informasi yang berguna.

Dalam hal agree_distance kami mengukur jarak antara setiap reddit_text dan satu set "pernyataan setuju". Lalu, setiap kali pengiriman atau komentar telah membalas, kami menambahkan top_reply_agree_distance dan avg_reply_agree_distance . Hipotesis kami adalah bahwa posting dengan balasan yang lebih dekat dengan pernyataan "setuju" akan lebih cenderung berisi informasi yang relevan. Demikian pula, posting dengan balasan yang lebih dekat dengan pernyataan "tidak setuju" akan lebih kecil kemungkinannya relevan.

Saat peringkat ulang, hasil dengan avg_reply_agree_distance yang lebih rendah ditabrak lebih tinggi, hasilnya dengan avg_reply_disagree_distance yang lebih rendah ditabrak lebih rendah.

Konfigurasi yang Diuji

Kami menguji 160 konfigurasi model yang berbeda. Setiap konfigurasi menyertakan pilihan penyematan, strategi untuk memfilter tes sebelum melakukan pencarian vektor kami, dan strategi untuk peringkat ulang hasil yang diambil.

Hyper-parameter ini dirangkum dalam gambar di bawah ini:

Variasi Konfigurasi

Mengevaluasi hasil

Kami memiliki dua tujuan utama yang kami pikirkan ketika mengevaluasi hasil kami:

Kami ingin hasil kueri menempatkan dokumen yang relevan setinggi mungkin di peringkat kami.
Kami ingin hasil kueri dikembalikan dalam waktu kurang dari satu detik.

Sementara waktu pengambilan cukup mudah untuk diukur, kami perlu mengembangkan beberapa alat untuk mengukur kemajuan kami pada peringkat hasil.

Mendapatkan data berlabel

Untuk menetapkan garis dasar untuk mengevaluasi peringkat hasil, kami secara manual memberi label subset hasil untuk menetapkan metrik awal relevansi. Untuk melakukan ini, kami membuat dua pertanyaan untuk masing -masing dari tiga belas kumpulan data dalam set pelatihan kami, dan memberi label 20 hasil teratas yang diambil untuk setiap kueri. Hasilnya diberi label sebagai:

Relevan dengan kueri
Terkait dengan kueri, tetapi tidak relevan dengan kueri
Tidak terkait dengan kueri

Contoh pasangan query-result selama pelabelan

Untuk setiap pasangan hasil-kueri, label akhir ditentukan oleh suara pluralitas, dengan ikatan default menjadi kurang relevan. Data berlabel manual ini kemudian digunakan untuk mengukur hasil.

Mengukur hasil

Kami menggunakan tiga metrik untuk hasil peringkat. Masing -masing adalah versi yang dimodifikasi dari metrik sistem rekomendasi, disesuaikan dengan kasus penggunaan kami di mana kami tidak memiliki kebenaran tanah yang jelas, atau peringkat yang mapan dari hasil yang relevan dari yang paling relevan hingga paling tidak relevan.

Berarti peringkat timbal balik

Metrik ini memberikan skor yang menunjukkan seberapa dekat ke atas hasil yang relevan pertama kali diketahui muncul. Skor sempurna 1 telah dicapai jika hasil teratas dari setiap kueri relevan.

Untuk menghitung peringkat timbal balik untuk kueri yang diberikan, kami menerapkan formula berikut: $$ text {rr} = dfrac {1} {n} $$ Di mana $ n $ adalah posisi di mana hasil yang relevan pertama kali diketahui muncul dalam hasil yang diambil.

Dalam aplikasi standar, ada satu hasil "kebenaran darat" yang diketahui. Dalam aplikasi yang dimodifikasi kami, kami menerima hasil yang relevan yang diketahui sebagai kebenaran dasar.

Kami kemudian menghitung rata -rata skor ini di semua pertanyaan standar kami untuk sampai pada peringkat timbal balik rata -rata.

Berarti peringkat timbal balik yang diperpanjang

Metrik ini memberikan skor yang menunjukkan berapa banyak hasil relevan kami yang diketahui muncul di dekat bagian atas. Skor sempurna dari 1 dicapai jika semua hasil yang relevan diketahui muncul sebagai hasil teratas untuk semua kueri (tanpa hasil yang tidak berlabel muncul lebih tinggi dari hasil yang relevan yang diketahui.)

Untuk menghitung peringkat timbal balik yang diperluas untuk kueri yang diberikan, kami menerapkan formula berikut:

$$ text {extrr} = dfrac {1} {| k |} sum_ {k} k_i $$

Di mana $ K $ adalah himpunan semua hasil yang relevan yang diketahui, dan

$$ k_i = begin {case} 1 & text {if} n_i leq | k | \ dfrac {1} {| k | -n_i+1} & teks {jika tidak} end {case} $$

Di mana $ n_i $ adalah posisi di mana hasil yang relevan yang diketahui, $ k_i $ , muncul dalam hasil yang diambil.

Dalam aplikasi standar, setiap hasil yang relevan memiliki peringkatnya sendiri, dan kontribusinya terhadap skor keseluruhan memperhitungkan peringkat ini sebagai posisi yang diharapkan dalam hasil. Dalam aplikasi yang dimodifikasi kami, kami memberikan kontribusi yang sama dengan hasil yang relevan yang diketahui yang muncul di atas posisi $ | K | $ dalam hasilnya.

Kami kemudian menghitung rata -rata skor ini di semua pertanyaan standar kami untuk sampai pada peringkat timbal balik rata -rata.

Gain kumulatif diskon dinormalisasi

Discounted Cumulative Gain (DCG) sering digunakan sebagai metrik untuk mengevaluasi kinerja mesin pencari, dan mengukur efisiensi algoritma dalam menempatkan hasil yang relevan di bagian atas daftar pengambilan. Untuk daftar tanggapan panjang $ k $ , Skor DCG di posisi $ j $ didefinisikan sebagai

$$ text {dcg} _ {j} = sum_ {i = 1}^{j} frac { text {rel} _i} { log_ {2} (i+1)}, $$

Di mana $ rel_ {i} $ adalah skor relevansi respons pada posisi $ i $ , dan faktor logaritmik dalam denominator (disebut diskon) memastikan bahwa teknologi peringkat yang berbeda konsisten dalam metrik ini, dan hasil yang sangat relevan muncul di bagian bawah daftar pengambilan akan berkontribusi lebih sedikit pada skor, daripada jika mereka muncul lebih tinggi.

Karena skor DCG sangat tergantung pada panjang daftar pengambilan, kita perlu menormalkannya sehingga penilaian konsisten di seluruh skenario pengambilan kueri dengan jumlah hasil yang bervariasi. Skor Gain Kumulatif Diskon Normalisasi (NDCG) pada posisi $ j $ kemudian didefinisikan sebagai

$$ text {ndcg} _j = frac { text {dcg} _j} { text {idcg} _j}; text {where} text {idcg} _j = sum_ {i = 1}^{j} frac { text {rel} _ {i}^{ text {ideal}} { log_2 (i+1) {{ideal}} { log_2 (i+1) {{Ideal} { log_2 (i+1)

dimana $ text {rel} _ {i}^{ text {ideal}} $ adalah skor dalam skenario ideal di mana semua hasil yang relevan berada di bagian atas daftar.

NDCG dapat mengambil skor relevansi ordinal (1 untuk sangat relevan, 2 untuk agak relevan, demikian juga). Kami memodifikasi skema penilaian untuk kasus kami, dengan mengubah label manusia kami (1-relevan, terkait 2 tetapi tidak relevan, tidak terkait 3) menjadi skema penilaian biner. Hasil dengan label manusia = 1 diberi skor relevansi = 1, dan yang lainnya diberi skor relevansi 0. Ini dilakukan untuk memastikan bahwa konfigurasi terbaik, seperti yang ditentukan oleh skor NDCG, seharusnya hanya mengembalikan hasil yang sangat relevan. Kami kemudian menghitung skor NDCG dari kueri standar kami dan rata -rata untuk mendapatkan skor NDCG rata -rata dari konfigurasi tertentu. Skor DCG dan skor IDCG dihitung dengan pengaturan

$$ text {rel} _ {i} = 2^{ text {skor} _ {i}}-1, $$

Di mana $ text {skor} _i = 1 $ Jika dokumen diambil relevan, dan $ 0 $ Jika dokumen yang diambil tidak relevan.

Hasil dan kesimpulan

Baseline

Kami menggunakan parameter model berikut sebagai baseline kami untuk perbandingan:

Ukuran Chunk untuk Embedding: 512
Tidak ada metadata terlampir
Tidak ada pre-filtering sebelum pencarian vektor
Tidak ada peringkat ulang hasil

Konfigurasi dasar mencapai skor berikut di seluruh metrik kami:

Metrik	Skor	Peringkat (dari 160)
Berarti peringkat timbal balik	0.626031	46
Peringkat timbal balik rata -rata diperpanjang	0.427189	84
Gain kumulatif diskon dinormalisasi	0.714459	84
Peringkat keseluruhan rata -rata		71.33

Hasil keseluruhan teratas

Konfigurasi yang mencapai hasil keseluruhan terbaik (peringkat rata -rata tertinggi lintas metrik):

Ukuran Chunk untuk Embedding: 512
Dengan metadata terlampir
Pertanyaan singkat pra-filter sebelum pencarian vektor
Peringkat ulang hasil yang diambil menggunakan sentimen balasan
Peringkat ulang hasil yang diambil menggunakan balasan "Jarak Setuju"

Konfigurasi ini mencapai skor berikut di seluruh metrik kami:

Metrik	Skor	Peringkat (dari 160)
Berarti peringkat timbal balik	0.742735	7
Peringkat timbal balik rata -rata diperpanjang	0.599379	9
Gain kumulatif diskon dinormalisasi	0.806476	1
Peringkat keseluruhan rata -rata		5.67

Di bawah ini, kita dapat melihat posisi relatif konfigurasi baseline ke keseluruhan teratas.

100 Konfigurasi Teratas oleh MRR 100 Konfigurasi Teratas oleh DCG

Parameter dengan dampak terbesar

Tampaknya penurunan ukuran chunk memiliki dampak negatif yang umumnya pada hasil.

Kinerja di seluruh variasi penyematan

Juga, menyaring pertanyaan singkat sebelum pengambilan memiliki dampak positif terlepas dari pilihan hiperparameter lainnya.

Pertanyaan Singkat dan MRR

Pertanyaan Singkat dan MEXT_RR

Pertanyaan Singkat dan NDCG

Jika kami menyoroti hanya konfigurasi yang berisi variasi ini bersama -sama (ukuran 512 chunk, dengan metadata tambahan, dan penyaringan dengan pertanyaan singkat) kami melihat seberapa baik kinerja relatif terhadap konfigurasi lainnya.

Pertanyaan singkat dan MRR disorot

Pertanyaan singkat dan mext_rr disorot

Pertanyaan singkat dan NDCG disorot

Pekerjaan di masa depan

Beberapa bidang penyelidikan potensial di masa depan:

Preprocessing:
- Menangani emoji dan singkatan umum untuk menangkap sentimen dengan lebih baik.
Pelabelan:
- Beri label data tambahan, mewakili rentang jenis kueri yang lebih luas dan menargetkan subset data yang lebih besar.
- Augment dengan pelabelan otomatis menggunakan LLM atau cara lain.
- Peringkat hasil yang relevan (berbeda dengan sekadar mengkategorikan sebagai relevan versus tidak relevan) sehingga kami dapat menerapkan metrik yang mendeteksi lebih halus yang mungkin lebih baik mengukur dampak hiperparameter rekayasa kami.
Rekayasa Hyperparameter:
- Sempurnakan filter pertanyaan pendek untuk menangani lebih banyak nuansa dalam apa yang membuat pertanyaan singkat.
- Modifikasi Jarak Setuju Dengan Memvariasikan Pemilihan Standar "Pernyataan Setuju" (Demikian pula untuk jarak yang tidak setuju).
- Bereksperimen dengan variasi "jarak balasan" tambahan.
- Bereksperimen dengan peringkat ulang menggunakan ukuran potongan yang berbeda dari embedding primer
Parameter Pengindeksan:
- Uji berbagai parameter untuk melihat apakah waktu pengambilan dapat ditingkatkan dalam konfigurasi teratas.
Peringkat ulang:
- Memperbaiki implementasi peringkat ulang dan bereksperimen dengan variasi.
- Bereksperimen dengan urutan peringkat ulang untuk memahami apakah itu berdampak pada hasil keseluruhan.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-05-30
ukuran 502.63MB
Berasal dari Github

Aplikasi Terkait

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Anjing_Rubah_Kelinci

2022-08-01
Mesin analisis data Lihua versi gratis 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua