แพ็คเกจ Python ขนาดเล็กที่ฉันทำเพื่อแยกเนื้อหา HTML ออกจากหน้าเว็บ มันปรับแต่งได้มากและฉันทำให้มันเหมาะกับความต้องการของฉัน (แยกรหัสหลายหน้าไปยัง markdown แต่มีเพียงแท็ก HTML ที่ฉันต้องการ) เนื่องจากจุดประสงค์ของมันสามารถแปลงแท็ก HTML เฉพาะเป็นรูปแบบการทำเครื่องหมายที่ต้องการสคริปต์นี้ไม่ได้สร้างเอาต์พุตมาตรฐานใด ๆ แต่ใช้โทเค็นแบบกำหนดเองที่ระบุไว้ในไฟล์การกำหนดค่าดังนั้นเอาต์พุตสามารถจัดรูปแบบใด ๆ
ในการใช้แพ็คเกจนี้คุณจะต้องติดตั้งโดยใช้ pip :
pip install markout-htmlจากนั้นเพียงแค่นำเข้าลงในรหัสของคุณ:
from markout_html import * หลังจากนั้นคุณสามารถใช้ฟังก์ชัน extract_url และ extract_html :
result = extract_url (
# HTML page link
'http://example.page.com/blog/some_post.html' ,
# Tokens to format each HTML tags contents (you can extract only the ones you want)
{
'p' : " n ** {} **"
},
# Only extract contents inside this tag
'article'
)
result = extract_html (
# HTML code string
'<html>some html code</html>' ,
# Tokens to format each HTML tags contents (you can extract only the ones you want)
{
'p' : " n ** {} **"
},
# Only extract contents inside this tag
'article'
)ด้านล่างนี้เป็นตัวอย่างที่มีคำอธิบายที่ดีกว่าเกี่ยวกับวิธีการใช้คำสั่งแพ็คเกจนี้หากคุณไม่ต้องการสร้างสคริปต์ Python!
หากคุณต้องการแยกออกโดยใช้สตริงในเทอร์มินัลคุณสามารถใช้ markout_html --extract [string]
คุณสามารถใช้คำสั่ง markout_html ด้วยการตั้งค่าสถานะ --help สำหรับข้อมูลเพิ่มเติม
การกำหนดค่าทั้งหมดสามารถพบได้ในไฟล์เดียว: .markoutrc.json (คุณสามารถระบุชื่ออื่นในเทอร์มินัลด้วยการตั้งค่าสถานะ --config ) หากคุณไม่โหลดไฟล์การกำหนดค่าสคริปต์จะใช้ค่าเริ่มต้น มีตัวอย่างของการกำหนดค่าในรูทที่เก็บ!
เพื่อระบุการใช้ไฟล์กำหนดค่าอื่น:
markout_html --config [filename] links - วัตถุ ของลิงก์ที่จะแยกแต่ละลิงก์มีค่าปลายทาง (ไฟล์เอาต์พุต) ตัวอย่าง:
{
"links" : {
"http://example.page.com/blog/some_post.html" : " out/post.md " ,
"http://example.page.com/blog/some_other_post.html" : " out/other_post.md "
}
} ตัวอย่างข้างต้นจะได้รับ html จาก http://example.page.com/blog/some_post.html และแยกผลลัพธ์ออกเป็น out/post.md
only_on - สตริง ที่ระบุตำแหน่ง (ซึ่งแท็ก HTML) เพื่อแยกเนื้อหาจาก (เช่น: html, body, main) ตัวอย่าง:
{
"only_on" : " article "
} tokens - วัตถุ ที่แต่ละแท็ก HTML ที่ระบุจะถูกแยกออกเป็นสตริงที่จัดรูปแบบแล้ววางไว้บนไฟล์เอาต์พุต ตัวอย่าง:
{
"tokens" : {
"header" : " # {} " ,
"h1" : " n # {} " ,
"h2" : " n # {} " ,
"b" : " n ## {} " ,
"li" : " + {} " ,
"i" : " ** {} ** " ,
"p" : " n {} " ,
"span" : " {} "
}
} ในตัวอย่างด้านบนเนื้อหาของแท็ก HTML <header> จะถูกแยกออกเป็นสตริง # {} ดังนั้นตัวอย่างเช่นถ้าเรามี <header>Some text here!</header> ส่วนที่ # Some text here! (รูปแบบข้อความนี้เป็น markdown)
อย่าลังเลที่จะออกจากการบริจาคของคุณที่นี่ฉันจะขอบคุณจริงๆ! นอกจากนี้หากคุณมีข้อสงสัยหรือปัญหาใด ๆ ที่ใช้แพ็คเกจนี้เพียงแค่ติดต่อฉันหรือปล่อยปัญหา