Pengalaman mesin pencari RSS yang mulus dengan sedikit pembelajaran mesin.
SQL Dump dari database dengan lebih dari 3 juta entri yang diekstraksi dalam lebih dari setahun dapat diunduh di https://davidesantangelo.gumroad.com/l/nkyymb
Dato.rss dalam beta, dan kemungkinan akan melihat banyak perubahan dalam waktu dekat.
Jika Anda memiliki komentar atau saran, silakan kirimkan kepada kami menggunakan tab Masalah.
Terima kasih telah mencoba beta!
Mesin Pencari: Cari dengan cepat melalui jutaan umpan RSS yang tersedia.
RESTFUL API: Mengubah data umpan menjadi API yang luar biasa. API menyederhanakan bagaimana Anda menangani feed RSS, Atom, atau JSON. Anda dapat menambah dan melacak data umpan favorit Anda dengan API istirahat yang sederhana, cepat dan bersih. Semua entri diperkaya oleh pembelajaran mesin dan mesin semantik.
curl ' https://<yourhost>/api/searches?q=news ' | json_pp
{
" data " : [
{
" id " : " 86b0f829-e300-4eef-82e1-82f34d03aff6 " ,
" type " : " entry " ,
" attributes " : {
" title " : " " Pandemic, Infodemic " : 2 Cartoon Characters Battling Fake News In Assam " ,
" url " : " https://www.ndtv.com/india-news/coronavirus-pandemic-infodemic-2-cartoon-characters-battling-fake-news-in-assam-2222333 " ,
" published_at " : 1588448805,
" body " : " An English daily in Assam's Guwahati has been publishing a cartoon strip to tackle the fake news related to the coronavirus pandemic. The two central characters- " Pandemic and Infodemic " - are being...<img src= " http://feeds.feedburner.com/~r/NDTV-LatestNews/~4/lEmH201Q8jI " height= " 1 " width= " 1 " alt= "" /> " ,
" text " : " An English daily in Assam's Guwahati has been publishing a cartoon strip to tackle the fake news related to the coronavirus pandemic. The two central characters- " Pandemic and Infodemic " - are being... " ,
" categories " : [
" all india "
],
" sentiment " : null,
" parent " : {
" id " : " c97bdae6-b5d1-4966-b9f3-615e29d4d47d " ,
" title " : " NDTV News - Special " ,
" url " : " feed:http://feeds.feedburner.com/NDTV-LatestNews " ,
" rank " : 99
},
" tags " : []
},
" relationships " : {
" feed " : {
" data " : {
" id " : " c97bdae6-b5d1-4966-b9f3-615e29d4d47d " ,
" type " : " feed "
}
}
}
},
]
}
Pencarian baru saja diimplementasikan dengan fitur Pencarian Teks Lengkap Pencarian.
Saya menggunakan permata pg_search , yang dapat digunakan dalam dua cara:
Pencarian Multi: Cari di beberapa model dan kembalikan satu array hasil. Bayangkan memiliki tiga model: produk, merek, dan ulasan. Menggunakan Multi Search, kami dapat mencari di seluruh mereka pada saat yang sama, melihat satu set hasil pencarian. Ini akan sempurna untuk menambahkan fungsionalitas pencarian federasi ke aplikasi Anda.
Lingkup pencarian: Cari dalam satu model, tetapi dengan fleksibilitas yang lebih besar.
execute << - SQL
ALTER TABLE entries
ADD COLUMN searchable tsvector GENERATED ALWAYS AS (
setweight(to_tsvector( ' simple ' , coalesce(title, ' ' )), ' A ' ) ||
setweight(to_tsvector( ' simple ' , coalesce(body, ' ' )), ' B ' ) ||
setweight(to_tsvector( ' simple ' , coalesce(url, ' ' )), ' C ' )
) STORED;
SQLPeringkat umpan disediakan oleh OpenRank metrik otoritas domain root gratis berdasarkan dataset Pagerank pencarian umum. Nilainya dinormalisasi oleh
( ( Math . log10 ( domain_rank ) / Math . log10 ( 100 ) ) * 100 ) . round Pembelajaran mesin disediakan oleh Dandelion API Semantik Analisis Teks sebagai Layanan, dari teks hingga data yang dapat ditindaklanjuti. Ekstrak makna dari teks yang tidak terstruktur dan masukkan dalam konteks dengan API sederhana.
Anda dapat menambahkan feed sebanyak yang Anda inginkan untuk ditangani crawler otomatis.
https: /// feed/new
Semua dokumentasi API ada di bagian wiki. Jangan ragu untuk membuatnya lebih baik, tentu saja.
https://github.com/davidesantangelo/dato.rss/wiki
Untuk menggunakan beberapa fitur seperti menambahkan umpan baru, Anda memerlukan token dengan izin menulis . Saat ini hanya saya yang bisa mengaktifkannya. Dalam kasus hubungi saya
Ditambah banyak permata ruby, daftar lengkapnya di /main /gemfile.
Jika Anda ingin mendukung saya dalam biaya server untuk menjaga dato.ess gratis dan tetap, pertimbangkan untuk mensponsori! Terima kasih!
Sponsor GitHub
Laporan bug dan permintaan tarik dipersilakan di GitHub di https://github.com/davidesantangelo/dato.rss. Proyek ini dimaksudkan untuk menjadi ruang yang aman dan ramah untuk kolaborasi, dan kontributor diharapkan mematuhi Kode Perilaku Perjanjian Kontributor.
Permata tersedia sebagai open source di bawah ketentuan lisensi MIT.