Paket Python kecil yang saya buat untuk mengekstrak konten HTML dari halaman web. Ini sangat dapat disesuaikan dan saya membuatnya sesuai dengan kebutuhan saya (mengekstrak kode beberapa halaman dengan penurunan harga, tetapi hanya beberapa tag HTML yang saya butuhkan). Karena tujuannya dapat mengonversi tag HTML spesifik menjadi format markdown yang diinginkan skrip ini tidak menghasilkan output standar apa pun, melainkan menggunakan token khusus yang ditentukan dalam file konfigurasi, sehingga output dapat diformat menjadi apa pun.
Untuk menggunakan paket ini, Anda harus menginstalnya menggunakan pip :
pip install markout-htmlKemudian cukup impor ke kode Anda:
from markout_html import * Setelah itu Anda dapat menggunakan fungsi extract_url dan extract_html :
result = extract_url (
# HTML page link
'http://example.page.com/blog/some_post.html' ,
# Tokens to format each HTML tags contents (you can extract only the ones you want)
{
'p' : " n ** {} **"
},
# Only extract contents inside this tag
'article'
)
result = extract_html (
# HTML code string
'<html>some html code</html>' ,
# Tokens to format each HTML tags contents (you can extract only the ones you want)
{
'p' : " n ** {} **"
},
# Only extract contents inside this tag
'article'
)Di bawah ini adalah beberapa contoh dengan deskripsi yang lebih baik tentang cara menggunakan perintah paket ini jika Anda tidak ingin membuat skrip python!
Jika Anda hanya ingin mengekstrak menggunakan string di terminal, Anda dapat menggunakan markout_html --extract [string] .
Anda dapat menggunakan perintah markout_html dengan bendera --help untuk info lebih lanjut.
Semua konfigurasi dapat ditemukan ke dalam satu file: .markoutrc.json (Anda dapat menentukan nama lain di terminal dengan flag --config ), jika Anda tidak memuat file konfigurasi skrip akan menggunakan nilai defaultnya. Ada contoh konfigurasi di root repositori!
Untuk menentukan penggunaan file konfigurasi yang berbeda:
markout_html --config [filename] links - Objek tautan yang akan diekstraksi, setiap tautan memiliki nilai tujuan (file output). Contoh:
{
"links" : {
"http://example.page.com/blog/some_post.html" : " out/post.md " ,
"http://example.page.com/blog/some_other_post.html" : " out/other_post.md "
}
} Contoh di atas akan mendapatkan html dari http://example.page.com/blog/some_post.html dan mengekstrak hasilnya menjadi out/post.md .
only_on - String yang menentukan di mana (tag html mana) untuk mengekstrak konten dari (misalnya: html, body, main). Contoh:
{
"only_on" : " article "
} tokens - Objek di mana masing -masing tag HTML yang ditentukan akan diekstrak ke dalam string yang diformat dan kemudian ditempatkan pada file output. Contoh:
{
"tokens" : {
"header" : " # {} " ,
"h1" : " n # {} " ,
"h2" : " n # {} " ,
"b" : " n ## {} " ,
"li" : " + {} " ,
"i" : " ** {} ** " ,
"p" : " n {} " ,
"span" : " {} "
}
} Pada contoh di atas, isi tag HTML <header> akan diekstrak ke dalam string # {} , jadi misalnya, jika kami memiliki <header>Some text here!</header> Hasilnya akan menjadi # Some text here! (Ini memformat teks menjadi penurunan harga).
Jangan ragu untuk meninggalkan kontribusi Anda di sini, saya akan sangat menghargainya! Juga, jika Anda memiliki keraguan atau masalah menggunakan paket ini cukup hubungi saya atau tinggalkan masalah.