Unduh revery - Unduh Kode Sumber revery

revery

Kode sumber lainnya

1.0.0

Unduh

Lamunan?

Revey adalah mesin pencari semantik yang beroperasi pada indeks pencarian monocle saya. Sementara Revey memungkinkan saya mencari melalui database yang sama dengan puluhan ribu catatan, bookmark, entri jurnal, tweet, kontak, dan posting blog sebagai Monocle, fokus Revey tidak pada pencarian berbasis kata kunci yang dilakukan Monocle, tetapi bukan pada pencarian semantik -menemukan hasil yang secara topikal mirip dengan beberapa halaman web atau kueri, bahkan jika mereka tidak membagikan kata-kata yang sama. Ini tersedia sebagai ekstensi browser yang dapat memunculkan hasil yang relevan ke halaman saat ini, serta aplikasi web yang lebih standar menyerupai halaman pencarian Monocle.

Ekstensi Browser Revey dan Antarmuka Web berjalan di iPad dan laptop

Tidak seperti kebanyakan proyek sampingan saya, karena ukuran data dan jumlah pekerjaan komputasi yang dibutuhkan Revery, backend -nya ditulis dalam perjalanan. Kedua klien - aplikasi web dan ekstensi browser - dibangun dengan torus.

Meskipun bekerja cukup baik bagi saya untuk menggunakannya setiap hari, Revey lebih merupakan prototipe bukti konsep daripada produk jadi. Saya ingin menunjukkan bahwa alat seperti ini dapat dibangun untuk penggunaan pribadi di atas alat produktivitas pribadi seperti catatan dan bookmark, dan mengalami bagaimana rasanya menelusuri web dan menulis dengan alat seperti itu.

Fitur

Rever, pada intinya, hanyalah API tunggal. API mengambil beberapa teks, dan merangkak melalui koleksi dokumen dan catatan pribadi saya untuk menemukan yang teratas yang tampaknya paling terkait dengan teks yang diberikan. Untuk membuat ini menarik untuk digunakan, saya telah membungkusnya dengan dua antarmuka yang berbeda: ekstensi browser, dan antarmuka pencarian berbasis web yang lebih standar.

Ekstensi Browser

Ekstensi Browser Revey hidup di dalam ./extension di repositori ini, dan melakukan satu hal yang tepat: ketika saya menekan Ctrl-Shift-L pada halaman web apa pun yang saya lihat, itu akan mengikis tubuh utama teks dari halaman (atau bagian yang dipilih dari itu, jika saya menyoroti sesuatu) dan berbicara dengan API Revery untuk menemukan dokumen yang paling terkait dengan apa yang saya baca.

Ekstensi browser Revey yang menunjukkan daftar hasil terkait

Di mana Monocle, dengan algoritma pencarian berbasis kata kunci, baik untuk ingatan, saya telah menemukan ekstensi hormat yang bagus untuk eksplorasi pada topik tertentu . Jika saya membaca tentang pemrosesan bahasa alami, misalnya, saya dapat menekan beberapa penekanan tombol untuk memunculkan artikel lain yang saya baca, atau catatan yang telah saya ambil di masa lalu, yang dapat saya referensi secara mental ketika saya membaca dan belajar tentang ide -ide baru di NLP.

Kami mempelajari ide -ide baru dengan baik ketika kami dapat menemukan titik referensi yang ada dalam memori kami di mana kami dapat melampirkan informasi baru. Ekstensi Revey sebagian mengotomatiskan dan mempercepat tugas itu. Sebagai contoh, saat membaca sebuah artikel tentang posisi budaya dan ekonomi Korea Selatan yang unik di dunia, Revey memunculkan beberapa buletin dan artikel terkait dari penulis dan sumber yang sama sekali berbeda tentang budaya pop Korea dan penurunan populasinya, yang membantu saya membingkai apa yang saya baca dalam konteks yang jauh lebih luas, terinformasi dengan baik.

Antarmuka web

Antarmuka pencarian web, bagi saya, sedikit sekunder untuk ekstensi. Ini ada terutama sebagai demonstrasi teknologi yang mendasari Revey, dan juga kebetulan sebagai cara bagi saya untuk menggunakan Revey ketika ekstensi tidak tersedia (seperti pada browser seluler).

Antarmuka web Revey yang menunjukkan daftar hasil

Bilah pencarian di antarmuka web dapat mengambil URL atau frasa kunci. Diberikan URL (seperti pada tangkapan layar di atas), Revey akan mengunduh dan membaca halaman web itu sendiri untuk menemukan dokumen terkait dalam indeks pencarian. Diberi frasa kunci, Revey akan mencoba menyarankan dokumen yang berisi kata -kata serupa dan berbicara tentang topik yang sama.

Jenis antarmuka pencarian ini (sebagai lawan dari ekstensi) berguna bagi saya untuk memulai memikirkan sesuatu yang baru, di mana saya dapat mengetikkan daftar kata-kata terkait ke dalam kotak pencarian dan segera mendapatkan daftar ide dan dokumen yang saya kenal dengan yang terkait, tanpa harus membuat pertanyaan pencarian spesifik dan dibuat dengan baik yang diperlukan oleh mesin pencarian berbasis kata kunci seperti yang diperlukan oleh Monocle.

Cara kerjanya

Seperti disebutkan di atas, inti Revey adalah titik akhir API tunggal yang mengambil beberapa dokumen dan mengembalikan daftar sebagian besar dokumen terkait dari indeks pencarian saya. Apa yang membuat Revey istimewa adalah bahwa API ini melakukan pencarian semantik , bukan hanya pemindaian untuk kata kunci yang cocok. Ini berarti bahwa hasil teratas bahkan mungkin tidak berisi kata -kata yang sama dengan kueri, selama isinya relevan secara topikal.

Jenis pencarian semantik ini diaktifkan oleh algoritma pencarian yang menggunakan kemiripan cosinus dengan dokumen cluster embeddings dari dokumen yang diindeks. Jika itu terdengar seperti banyak kata acak bagi Anda (seperti halnya saya ketika saya memulai proyek ini), izinkan saya memecahnya:

Pertama, kita perlu memahami kata embeddings . Sebuah kata yang menanamkan adalah cara memetakan kosakata kata-kata bahasa alami ke beberapa titik di ruang angkasa (biasanya ruang matematika dimensi tinggi), sehingga kata-kata yang serupa dalam makna berdekatan dalam ruang ini. Sebagai contoh, kata "sains" dalam kata penyembatan akan sangat dekat dengan kata "ilmuwan", cukup dekat dengan "penelitian", dan kemungkinan sangat jauh dari "sirkus". Ketika kita berbicara tentang "jarak" dalam konteks embeddings kata, kita biasanya menggunakan kesamaan cosinus daripada jarak Euclidean, untuk alasan empiris dan teoretis yang tidak akan saya liput di sini.

Meskipun konsep embeddings kata tidak terlalu baru, masih ada penelitian aktif yang menghasilkan metode baru untuk menghasilkan lebih banyak dan lebih akurat dan berguna embeddings dari kumpulan data yang sama. Penyebaran pribadi saya menggunakan Dataset Embedding Kata Lisensi Creative Commons yang diproduksi oleh alat FastText Facebook, khususnya dataset 50.000 kata dengan 300 dimensi yang dilatih pada corpus crawl umum.

Word Embeddings mari kita menarik kesimpulan tentang kata -kata mana yang terkait, tetapi untuk hormat, kita ingin menggambar jenis kesimpulan yang sama tentang dokumen , yang merupakan daftar kata -kata. Untungnya, ada banyak literatur untuk menyarankan bahwa hanya mengambil rata -rata tertimbang dari vektor kata untuk setiap kata dalam dokumen dapat memberi kita perkiraan yang baik dari "vektor dokumen" yang mewakili dokumen secara keseluruhan. Meskipun ada metode yang lebih canggih yang dapat kita gunakan, seperti vektor paragraf atau model yang memperhitungkan urutan kata seperti Bert, rata -rata vektor kata bekerja cukup baik untuk kasus penggunaan Revey, dan mudah diimplementasikan dan diuji, jadi tongkat yang hormat dengan pendekatan ini.

Setelah kami dapat menghasilkan vektor dokumen dari dokumen menggunakan kata embedding kami, algoritma lainnya jatuh ke tempatnya. Pada saat startup, indeks server API Revey dan menghasilkan vektor dokumen untuk semua dokumen yang dapat ditemukan dalam dataset saya (yang tidak terlalu besar - sekitar 25.000 pada saat penulisan), dan pada setiap permintaan, algoritma menghitung vektor dokumen untuk dokumen yang diminta, dan mengurutkan setiap dokumen dalam indeks pencarian dengan jarak cosine ke dokumen Query, untuk mengembalikan NO top.

Di dalam Revey, setiap bagian dari algoritma ini ditulis tangan. Ini karena beberapa alasan:

Saya ingin mendorong diri saya untuk memahami algoritma dasar perdagangan ini sepenuhnya, dengan menulis kode sendiri
Sebagian besar perpustakaan open-source untuk melakukan komputasi semacam ini tersedia dalam paket Python, dan saya tidak memiliki infrastruktur pribadi yang hebat untuk menyebarkan dan memelihara aplikasi Python.
Go cukup cepat, secara anekdot, untuk tugas ini.

Kedua klien Revey - ekstensi dan aplikasi web - berbicara dengan titik akhir API tunggal ini. Klien itu sendiri cukup biasa, jadi saya tidak akan membahas secara detail bagaimana mereka bekerja di sini.

Pengembangan dan penyebaran

Di sini, penafian yang sama yang saya bagikan dengan Monocle juga berlaku:

️ Catatan : Jika Anda membaca bagian ini untuk mencoba mengatur dan menjalankan instance Revey Anda sendiri, saya memuji keberanian Anda, tetapi mungkin tidak super mudah atau bermanfaat - pengaturan Revey (terutama di sisi data dan pengindeksan) cukup spesifik tidak hanya untuk sumber data saya, tetapi juga cara saya menyusun file -file tersebut. Saya tidak akan menghentikan Anda dari mencoba membangun indeks pencarian Anda sendiri, tetapi berhati -hatilah: itu mungkin tidak berhasil, dan saya mungkin tidak akan melakukan dukungan teknis. Untuk alasan ini, bagian ini juga ditulis dalam bahasa pertama, sebagian besar untuk referensi masa depan saya.

Revey tergantung pada indeks pencarian yang diproduksi oleh pengindeks Monocle, jadi saya biasanya memastikan Revey memiliki salinan indeks pencarian Monocle baru -baru ini yang tersedia sebelum berjalan.

Revey memiliki dua basis kode independen di repositori yang sama. Yang pertama adalah ekstensi chrome, yang hidup sepenuhnya di dalam folder ./extension . Begini cara saya mengaturnya:

Ekstensi membutuhkan token otentikasi API untuk berbicara dengan API Revey. Saya biasanya hanya memilih string acak panjang sewenang -wenang. Kemudian, saya menempatkan file di ./extension yang disebut token.js dengan konten:
```
 const REVERY_TOKEN = '<some API key here>' ;
```
Saya pergi ke chrome://extensions dan klik "muat unpacked" untuk memuat folder ./extension sebagai "ekstensi yang tidak dibuang" ke browser saya, yang akan membuat ekstensi tersedia di setiap tab.

Itu untuk pengaturan ekstensi. Selanjutnya, saya mengatur server:

Ambil token otentikasi yang sama dari atas, dan letakkan hanya token string itu sendiri di dalam tokens.txt di akar folder proyek. Server Revey akan mengambil konten yang dipangkas whitespace dari file ini dan menggunakannya sebagai kunci API.
Cukup menjalankan make akan membangun Binary revery yang dapat dieksekusi ke dalam folder proyek.
Revey membutuhkan dua set data tambahan untuk bekerja: kata model embedding, dan dataset dokumen Monocle.
- Unduh file embedding kata (misalnya, dari FastText) dan potong ke ukuran yang masuk akal (kata 50-100k teratas tampaknya bekerja dengan baik). Potong baris pertama, yang biasanya menunjukkan jumlah kata total dan jumlah dimensi. Kode Revey mengasumsikan 300 dimensi, jadi jika ini bukan masalahnya, revisi kode.
- Salin dataset dokumen docs.json Monocle yang dihasilkan oleh pengindeks ke ./corpus/docs.json .
Menjalankan revery Executable sekarang harus dengan benar untuk memprosir model dan indeks pencarian, dan memulai server aplikasi web.

Karya seni sebelumnya dan masa depan

Meskipun Revey cukup berguna bagi saya untuk menggunakan sehari -hari, ada banyak penelitian aktif di ruang pencarian bahasa alami umum, dan Revey sendiri memiliki banyak ruang untuk perbaikan.

Di sisi data:

Bereksperimen dengan embeddings kata lain yang dapat memberikan kinerja yang lebih baik. Saya sudah mencoba FastText dan Lexvec, tetapi ada banyak model terbuka lainnya yang tersedia.
Menghasilkan Kata Kustom yang dioptimalkan untuk dataset saya dan untuk digunakan dalam membentuk vektor dokumen

Di sisi kode:

Mengoptimalkan algoritma yang menyentuh data untuk skala lebih baik, menggunakan sejumlah caching dan optimalisasi kode kuno yang bagus dari kode
Cara yang lebih baik untuk permukaan dokumen secara kontekstual di browser. Saat ini, mencari Revey di dalam browser membutuhkan tindakan pengguna yang eksplisit. Mungkin kita dapat menghidupkannya sepenuhnya secara otomatis, atau bahkan mendeteksi ketika pengguna telah menggulir ke akhir halaman atau menyoroti bagian yang menarik dari dokumen untuk secara otomatis menyarankan dokumen terkait.
Cara yang lebih baik untuk menyeimbangkan manfaat pencarian berbasis kata kunci dan semantik. Saat ini, Monocle dan Revey adalah dua aplikasi yang sepenuhnya terpisah, tetapi memiliki kedua jenis pencarian yang berkolaborasi satu sama lain atau bahkan hanya menampilkan berdampingan di layar mungkin lebih berguna.

Ada juga banyak karya seni sebelumnya yang hebat di ruang ini. Meskipun saya tidak dapat mencantumkan semuanya di sini, ada beberapa yang menonjol sebagai inspirasi untuk Repey.

Monocle, pendahulu langsung untuk hormat yang menggunakan dataset yang sama untuk pencarian kata kunci
Same.energy, yang memungkinkan mencari tweet atau foto dengan "gaya" yang sama menggunakan model transformator
Semantica, yang menggunakan kata embeddings untuk menyediakan alat tingkat bawah untuk mengeksplorasi hubungan antara kata-kata dan konsep individu
Hutan Informasi Tyler Angert, catatan imajinatif tentang browser web di masa depan
Teknik Embedding Dokumen , yang berfungsi sebagai tinjauan umum yang berguna dari bidang ketika saya memulai proyek ini

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-03-13
ukuran 2MB
Berasal dari Github

Aplikasi Terkait

Kembali

2024-09-12
SETIAP UPAYA perangkat lunak sepatu pintar

2024-06-29
Aplikasi REVERTO

2024-04-22
Membalikkan Biru

2023-08-08
Pakaian sehari-hari ReverseBlue

2023-08-08
Cinta mengikutimu SETIAP

2023-05-24

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua