Database tautan pribadi, agregator tautan, dengan fungsionalitas RSS.
Menggunakan kasus
- Pembaca RSS
- Manajer Bookmark
- YouTube Link Manager, Frontend
- Mesin pencari yang sangat sederhana
- Analisis Data - Menganalisis Rot Tautan, berapa banyak halaman yang dikutip oleh sumber lain, menganalisis domain tautan, dll.
Fitur
Umum
- Bookmarks Management, dengan tag, dan dukungan komentar
- Dukungan untuk 'Spaces'. Anda dapat mendefinisikan spasi sendiri seperti 'musik', 'video', 'film', dll. Kurang dengan aplikasi Django
- kata kunci analisis entri untuk menemukan tren
- Mode Cahaya dan Mode Gelap
- Ekspor Otomatis
- Akses untuk banyak pengguna
- mode kios. Refresh Otomatis Saat URL ditambahkan dengan param "Auto-Refresh" diatur ke nilai milidetik
Layanan
- Dukungan Umpan RSS: Mendukung YouTube RSS, Reddit RSS, Odysee, OpenRSS
- Dukungan untuk halaman yang diarsipkan melalui InternetArchive, atau media arsip yang dikonfigurasi
- Dukungan GitHub. Ekspor. Misalnya domain internet, pengguna, proyek
- Dukungan Unduh YouTube Melalui Proyek YT-DLP
Merangkak
- beberapa kemampuan merangkak internet
- Pencarian Tautan. Implementasi sederhana, tidak menggunakan pencarian elastis
- tidak mendukung rotasi proxy. Ini adalah pengikis web etis, tidak boleh spam dengan permintaan
- Agen pengguna yang dapat dikonfigurasi, crawler, selenium, permintaan, chrome tidak terdeteksi, crawlee, mudah diperpanjang
Pribadi
- Data lokal, tidak ada algoritma, tidak ada iklan, diselenggarakan sendiri
- Pelacakan Tindakan Pengguna. Anda dapat mengamati dan menganalisis sejarah 'pandangan' Anda, 'pencarian', 'komentar', 'sejarah menjelajah'
Suite proyek
- Tautan yang ditandai
- Domain internet, pengguna, proyek
- Repositori harian RSS Git untuk tahun 2024
- Repositori harian RSS Git untuk tahun 2023
- Repositori harian RSS Git untuk tahun 2022
- Repositori harian RSS Git untuk tahun 2021
- Repositori harian RSS Git untuk tahun 2020
Tautan
- Tangkapan layar
- Instalasi, Konfigurasi
- https://renegat0x0.ddns.net/apps/catalog/ - instance yang terlihat seperti penggantian YouTube
- https://renegat0x0.ddns.net/apps/various/ - instance demo, yang berisi berbagai hal
- Catatan tentang industri pencarian
- Analisis Data
- Perkembangan
Alternatif
Program alternatif untuk tautan bookmark memang ada.
Penimbun, Grimoire, Bookmarkos, Raindrop, Linkace, Ggather, Zotero, Oneseknik, Lasso, Carrylinks, Zlinky, Wakelet, Booky, Webtag, Historious, Knowies
Daftar Awasome di GitHub.
Bagaimana cara kerjanya?
- Sistem membaca "sumber" secara teratur
- Setiap "sumber" diperiksa secara teratur untuk data baru. Feed RSS adalah salah satu jenis sumber
- Tautan baru dimasukkan ke dalam database
- Setiap hari bookmark Anda dapat diekspor ke repositori, jika dikonfigurasi
- Tautan baru digunakan untuk mengisi "kata kunci" yang populer
Algoritma peringkat
Setiap halaman diberi peringkat oleh beberapa faktor.
- peringkat konten. [0..100] Kisaran
- Pengguna memberikan suara. [-100..100] Kisaran
Hasilnya sama sesuai dengan perhitungan
- peringkat halaman = peringkat konten + suara pengguna
Peringkat konten
Untuk memiliki peringkat halaman yang baik, diinginkan untuk mengikuti standar yang baik:
- Validator Skema
- Validator W3C
- Berikan informasi meta HTML. Info lebih lanjut dalam protokol grafik terbuka
- Berikan judul yang valid, yang ringkas, tetapi tidak terlalu pendek
- Berikan deskripsi yang valid, yang ringkas, tetapi tidak terlalu pendek
- Berikan tanggal publikasi yang valid
- Berikan thumbnail yang valid, citra media
- Berikan kode status HTML yang valid. Tidak ada pengalihan mewah, JavaScript mengarahkan ulang
- Berikan umpan RSS. Berikan informasi meta html untuk itu https://www.petefreitag.com/blog/rss-autodiscovery/
- Berikan tag kata kunci mesin pencari
Halaman Anda, domain ada di samping ribuan halaman lainnya. Bayangkan data meta Anda berdampak pada pengakuan Anda, dan peringkat halaman.
Ingat: Halaman yang bagus selalu peringkat lebih tinggi.
Anda mungkin bertanya -tanya, mengapa saya menulis tentang mesin pencari "kata kunci" meta, jika Google tidak membutuhkannya. Baik saya tidak suka google. Jika kami ingin solusi alternatif ada, dimungkinkan untuk dengan mudah menemukan halaman Anda dari mesin pencari yang lebih sederhana. Berikan bidang kata kunci jika Anda mendukung web terbuka.
Peringkat suara
Basis data dikelola oleh database tautan RSS, dan suara pengguna. Rata -rata suara dihitung untuk setiap tautan.
Ekspor
Ada beberapa jenis ekspor. Data setiap hari dapat diekspor.
Ekspor mendukung struktur file JSON.
Kami memelihara beberapa data, tetapi itu bukan penggantian archive.org. Kami hanya menyimpan data meta tentang halaman web: judul, deskripsi, thumbnail.
Sebagian besar tampilan berisi tombol "Tampilkan JSON" yang menyediakan data tampilan sebagai JSON. Ini dapat digunakan oleh skrip, untuk impor, ekspor.
Jenis Ekspor:
- Data harian - Setiap hari memiliki direktori sendiri
- Data Tahunan - Setiap tahun memiliki informasi secara terpisah
- Data tidak terkait waktu - data ada di direktori terpisah, dan tidak terkait waktu
Impor
Dilakukan oleh Panel Admin. File data JSON dapat digunakan untuk impor, atau aplikasi django-link-archive lainnya [sedang dibangun].
Kunci API
Administrator dapat membuat tombol API untuk tidak masuk pengguna untuk mengakses konten.
Format:
https://yourpage.com/your-app/index?key=yourgeneratedkey
Sejarah
Anda dapat menjaga riwayat penjelajahan web Anda sendiri secara lokal. Lupakan sejarah browser atau bookmark.
Dengan solusi yang di-hostied ini, Anda tidak perlu menyinkronkan apa pun, karena semuanya berada di server ini.
Lupakan sejarah penjelajahan video YouTube, atau langganan. Anda dapat mengontrol apa yang Anda lihat dan kapan!
Skrip
Fungsionalitas Web-Scraping juga dapat digunakan tanpa Django.
Ada beberapa skrip yang dapat digunakan tanpa aplikasi Django:
- yafr.py - pembaca umpan lain, klien Commandline
- page_props.py - alat Commandline yang menunjukkan properti halaman
- example_page_crawler.py - Contoh skrip yang dapat merangkak melalui halaman web
- example_compare_crawlers.py - menunjukkan berapa banyak waktu yang diperlukan untuk menjalankan crawler yang berbeda
- Converter.py - Mengonversi file JSON ke tabel SQLite
- DataAnalyzer.py - Menganalisis data dalam file JSON / tabel SQLite. Anda dapat meminta data
- script_server.py - server yang dapat digunakan untuk mengirimkan crawler ke URL tertentu, untuk mendapatkan data meta
- script_client.py - klien yang dapat digunakan untuk terhubung ke server, dan skrip debug crawler
- Workspace.py - Manajemen Ruang Kerja. Dapat digunakan untuk memperbarui proyek
- backup.py - skrip untuk mencadangkan data postgresql
Kemudahan navigasi
Proyek ini dibuat untuk memberikan Libary of Navigation. Oleh karena itu dari tautan harus ada navigasi ke tempat lain:
- Google
- Mesin pencari lainnya, wikipedia, dll
- tautan ke arsip internet, dll.
Bahkan jika Google mengimplementasikan tautan ke arsip internet, atau memperkenalkan sebagian besar fitur ini, kita harus melanjutkan pekerjaan kita tentang ini, karena kita tidak pernah tahu kapan perusahaan memutuskan untuk tidak mendukungnya.
Federated [sedang dibangun]
Proyek ini digem Federasi. Oleh karena itu Anda dapat mengandalkan data dari instance Djang-Link-Archive lainnya.
Anda bisa:
- Tentukan sumber proxy impor otomatis dari instance arsip tautan lainnya
- mengimpor tautan secara manual dari instance arsip tautan lain, atau
Sumber proxy [sedang dibangun]
Pertama mari kita tentukan skenario. Anda memiliki instance a dan instance B. instance b telah mendefinisikan sumber.
Anda tidak ingin instance a mengambil data yang sama dari internet. Anda ingin mengambil data dari Instance B.
Untuk melakukan itu:
- Arahkan ke Sumber B Instance.
- Temukan sumber yang Anda inginkan.
- Klik "Tampilkan JSON" (Salin lokasi alamat itu)
- Menavigasi pada contoh ke sumber.
- Tambahkan Sumber Baru
- Tempel Alamat B Instance, Tautan Alamat JSON
- Sistem harus menyarankan jenis sumber JSON
Manajemen Pengguna [sedang dibangun]
Proyek menggunakan modul auth pengguna default.
Roadmap untuk pertandingan akhir.
- Pada awalnya hanya administrator yang dapat menambahkan pengguna baru. Untuk menjalankan instance contact administrator
- Anda tidak membuat kata sandi, mereka dihasilkan untuk Anda, dengan kompleksitas yang tepat. Tolong tuliskan
- hubungi pengguna lain, pengguna lain juga dapat menambahkan pengguna baru, jika karma mengizinkannya
Efek karma pada pengguna:
- Jika karma Anda berjalan di bawah 0 akun Anda dilarang
- Setelah ambang batas tertentu, Anda dapat mengirimkan tautan baru
- Setelah ambang batas tertentu, Anda dapat mengirimkan komentar
- Setelah ambang batas tertentu, Anda dapat meningkatkan dan menurunkan komentar
- Setelah ambang tertentu, Anda membuat pengguna (1 per hari)
Apa yang menyebabkan perubahan karma:
- admin, atau moderator
- Menambahkan suara untuk tautan
- Upvotes, atau downvotes pada komentar
- Larangan pengguna lain yang Anda undang
Tindakan pengguna dilacak oleh sistem, hanya jika dikonfigurasi demikian:
- Pengguna dapat memposting komentar untuk entri
- Pengguna dapat menandai entri
- Pengguna dapat memilih entri
- Sistem menyimpan jumlah kueri pencarian terbatas, pengguna dapat memilih kueri sebelumnya dari ComboBox
- Sistem menyimpan pesanan kunjungan pada entri. Ini memungkinkan untuk menyediakan bagian "terkait" untuk setiap entri. Misalnya jika Anda melakukan entri "x" setelah "y", maka "x" akan muncul di bagian terkait "y"
Alasan
Banyak program, tetapi kebanyakan dari mereka memiliki beberapa keterbatasan.
- Lisensi: Beberapa klien bukan open source, atau tidak sepenuhnya open source (misalnya reddit). Beberapa program bukan program dari perspektif pengguna, tetapi layanan: feedly, saku, readwise pembaca. Mereka membutuhkan akun. Ketentuan dan layanan mereka dapat berubah
- Antarmuka: Sebagian besar program RSS adalah GUI: Thunderbird, Feeder. Saya menginginkan halaman web, aplikasi yang dapat diakses dari mana saja
- Kemampuan pencarian yang hilang (aplikasi "Berita" NextCloud, Thunderbird, Aplikasi Android Pengumpan, Aplikasi Linux Perahu Berita)
- Dukungan tag yang hilang (Aplikasi Thunderbird, Android Feeder)
- Beberapa program tidak memberikan peringkat tautan
- Impor / Ekspor: Sebagian besar program tidak memberikan cara mudah untuk melakukannya (saya ingin file JSON!)
- Skala: Beberapa proyek besar. Proyek ini berfokus pada penyediaan pengalaman "pengguna tunggal". Saya tidak ingin banyak dependensi di sini
- Tujuan: Reddit, Lemmy Tujuan adalah untuk memberikan pengalaman media sosial, proyek ini bertujuan untuk memberikan kemampuan untuk membuat database tautan
Catatan tambahan
Apa yang menggiling persneling saya?
- Google tidak memberikan cara mudah untuk melihat situs yang di -cache, seperti archive.org. Mereka memilikinya, mereka hanya tidak membiarkan Anda mengaksesnya
- Tidak mudah menemukan tempat baru di internet. Kapan Anda menemukan situs 'baru' yang layak dilihat? Blog? Situs Pribadi? Google memiliki indeks miliaran halaman, namun internet terlihat kosong
- Halaman web lama tidak akan pernah berada di tempat pertama di pencarian Google
- Tidak ada tombol di Google Search untuk menerjemahkan tautan tujuan
- YouTube menyediakan bagian "terkait" untuk video. Mengapa Google tidak menyediakan daftar tautan 'terkait' dalam pencarian?
- Sangat sulit untuk menemukan apa pun tentang Amiga, atau barang teknologi lama
- Kekeliruan halaman pertama. Hasil pencarian Google kedua memang penting. Halaman pencarian Google kedua juga penting. Jika saya mencari "PHP" ada ribuan kerangka kerja, proyek yang layak dilihat. Mengapa saya tidak dapat menemukannya dengan mudah menggunakan pencarian Google? Kami memberi google pencarian terlalu banyak kredit
Archive.org:
- Tidak dapat diandalkan. Terkadang menjadi sangat lambat. Itu masih lebih baik dari tidak sama sekali
- Sebagian besar media utama RSS tertutup, tetapi liputannya jaman. Tidak semua hari tertutup
- Internet Archive (Archive.org) tidak memberikan snapshot untuk setiap hari untuk semua sumber RSS. Terkadang sangat lambat. Kami ingin memastikan bahwa snapshot seperti itu terjadi. Karena itu kita perlu mengekspor tautan ke setiap hari repo kita sendiri. Aplikasi Django RSS juga membuat permintaan untuk mengarsipkan untuk membuat snapshot
Legal
- Saya tidak mendukung tautan apa pun setiap tautan dalam database. Saya mungkin beberapa tautan menjadi penting karena seberapa buruk isinya. Saya sering menggunakan ironi, karena itu waspadalah!
- Setiap orang berhak dilupakan. Jika ada tautan yang harus dihapus dari database, silakan hubungi saya
- Saya tidak mendapatkan bentuk kompensasi moneter apa pun dari tautan, atau data tentang hal itu. Informasi tautan data sudah disediakan oleh sumber RSS. Sumber RSS bertanggung jawab atas apa yang mereka berikan secara gratis
Catatan Akhir
Semua tautan milik kami!