ดาวน์โหลด markout - ดาวน์โหลดซอร์สโค้ดมาร์ markout

markout

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

แพ็คเกจ Python ขนาดเล็กที่ฉันทำเพื่อแยกเนื้อหา HTML ออกจากหน้าเว็บ มันปรับแต่งได้มากและฉันทำให้มันเหมาะกับความต้องการของฉัน (แยกรหัสหลายหน้าไปยัง markdown แต่มีเพียงแท็ก HTML ที่ฉันต้องการ) เนื่องจากจุดประสงค์ของมันสามารถแปลงแท็ก HTML เฉพาะเป็นรูปแบบการทำเครื่องหมายที่ต้องการสคริปต์นี้ไม่ได้สร้างเอาต์พุตมาตรฐานใด ๆ แต่ใช้โทเค็นแบบกำหนดเองที่ระบุไว้ในไฟล์การกำหนดค่าดังนั้นเอาต์พุตสามารถจัดรูปแบบใด ๆ

การใช้งาน

การนำเข้าสู่รหัสของคุณ

ในการใช้แพ็คเกจนี้คุณจะต้องติดตั้งโดยใช้ pip :

pip install markout-html

จากนั้นเพียงแค่นำเข้าลงในรหัสของคุณ:

 from markout_html import *

หลังจากนั้นคุณสามารถใช้ฟังก์ชัน extract_url และ extract_html :

 result = extract_url (
  # HTML page link
  'http://example.page.com/blog/some_post.html' ,

  # Tokens to format each HTML tags contents (you can extract only the ones you want)
  {
    'p' : " n ** {} **"
  },

  # Only extract contents inside this tag
  'article'
)

result = extract_html (
  # HTML code string
  '<html>some html code</html>' ,

  # Tokens to format each HTML tags contents (you can extract only the ones you want)
  {
    'p' : " n ** {} **"
  },

  # Only extract contents inside this tag
  'article'
)

ใช้คำสั่ง CLI

ด้านล่างนี้เป็นตัวอย่างที่มีคำอธิบายที่ดีกว่าเกี่ยวกับวิธีการใช้คำสั่งแพ็คเกจนี้หากคุณไม่ต้องการสร้างสคริปต์ Python!

หากคุณต้องการแยกออกโดยใช้สตริงในเทอร์มินัลคุณสามารถใช้ markout_html --extract [string]

คุณสามารถใช้คำสั่ง markout_html ด้วยการตั้งค่าสถานะ --help สำหรับข้อมูลเพิ่มเติม

การกำหนดค่า

การกำหนดค่าทั้งหมดสามารถพบได้ในไฟล์เดียว: .markoutrc.json (คุณสามารถระบุชื่ออื่นในเทอร์มินัลด้วยการตั้งค่าสถานะ --config ) หากคุณไม่โหลดไฟล์การกำหนดค่าสคริปต์จะใช้ค่าเริ่มต้น มีตัวอย่างของการกำหนดค่าในรูทที่เก็บ!

เพื่อระบุการใช้ไฟล์กำหนดค่าอื่น:

markout_html --config [filename]

ค่าไฟล์กำหนดค่า

links - วัตถุ ของลิงก์ที่จะแยกแต่ละลิงก์มีค่าปลายทาง (ไฟล์เอาต์พุต) ตัวอย่าง:

{
  "links" : {
    "http://example.page.com/blog/some_post.html" : " out/post.md " ,
    "http://example.page.com/blog/some_other_post.html" : " out/other_post.md "
  }
}

ตัวอย่างข้างต้นจะได้รับ html จาก http://example.page.com/blog/some_post.html และแยกผลลัพธ์ออกเป็น out/post.md

only_on - สตริง ที่ระบุตำแหน่ง (ซึ่งแท็ก HTML) เพื่อแยกเนื้อหาจาก (เช่น: html, body, main) ตัวอย่าง:

{
  "only_on" : " article "
}

tokens - วัตถุ ที่แต่ละแท็ก HTML ที่ระบุจะถูกแยกออกเป็นสตริงที่จัดรูปแบบแล้ววางไว้บนไฟล์เอาต์พุต ตัวอย่าง:

{
  "tokens" : {
    "header" : " # {} " ,
    "h1" : " n # {} " ,
    "h2" : " n # {} " ,
    "b" : " n ## {} " ,
    "li" : " + {} " ,
    "i" : " ** {} ** " ,
    "p" : " n {} " ,
    "span" : " {} "
  }
}

ในตัวอย่างด้านบนเนื้อหาของแท็ก HTML <header> จะถูกแยกออกเป็นสตริง # {} ดังนั้นตัวอย่างเช่นถ้าเรามี <header>Some text here!</header> ส่วนที่ # Some text here! (รูปแบบข้อความนี้เป็น markdown)