Ein kleines Python -Paket, das ich vorgenommen habe, um HTML -Inhalte aus Webseiten zu extrahieren. Es ist sehr anpassbar und ich habe es so gemacht, dass ich meinen Anforderungen entsprach (extrahieren Sie mehreren Seiten für Markdown, aber nur einige HTML -Tags, die ich brauchte). Aufgrund seines Zwecks, bestimmte HTML -Tags in ein gewünschtes Markdown -Format umzuwandeln, generiert dieses Skript keine Standardausgabe, sondern verwendet benutzerdefinierte Token, die in einer Konfigurationsdatei angegeben sind, sodass die Ausgabe in irgendetwas formatiert werden kann.
Um dieses Paket zu verwenden, müssen Sie es mit pip installieren:
pip install markout-htmlImportieren Sie es dann einfach in Ihren Code:
from markout_html import * Danach können Sie die Funktionen extract_url und extract_html verwenden:
result = extract_url (
# HTML page link
'http://example.page.com/blog/some_post.html' ,
# Tokens to format each HTML tags contents (you can extract only the ones you want)
{
'p' : " n ** {} **"
},
# Only extract contents inside this tag
'article'
)
result = extract_html (
# HTML code string
'<html>some html code</html>' ,
# Tokens to format each HTML tags contents (you can extract only the ones you want)
{
'p' : " n ** {} **"
},
# Only extract contents inside this tag
'article'
)Im Folgenden finden Sie einige Beispiele mit einer besseren Beschreibung, wie Sie diesen Paketbefehl verwenden, wenn Sie kein Python -Skript erstellen möchten!
Wenn Sie nur mit einer Zeichenfolge im Terminal extrahieren möchten, können Sie markout_html --extract [string] verwenden.
Sie können den Befehl markout_html mit dem Flag --help verwenden, um weitere Informationen zu erhalten.
Alle Konfigurationen können in eine einzelne Datei gefunden werden: .markoutrc.json (Sie können einen anderen Namen im Terminal mit dem Flag --config angeben). Wenn Sie keine Konfigurationsdatei laden, verwendet das Skript die Standardwerte. Es gibt ein Beispiel für eine Konfiguration im Repository -Root!
Um eine andere Konfigurationsdatei zu geben: Verwendung:
markout_html --config [filename] links - Objekt der zu extrahierenden Links, jeder Link hat einen Zielwert (Ausgabedatei). Beispiel:
{
"links" : {
"http://example.page.com/blog/some_post.html" : " out/post.md " ,
"http://example.page.com/blog/some_other_post.html" : " out/other_post.md "
}
} Das obige Beispiel erhält die HTML von http://example.page.com/blog/some_post.html und extrahiert die Ergebnisse in out/post.md .
only_on - String , die angeben, wo (welches HTML -Tag) den Inhalt aus (zB: HTML, Körper, Haupt) extrahieren. Beispiel:
{
"only_on" : " article "
} tokens - Objekt , bei dem jedes angegebene HTML -Tag in eine formatierte Zeichenfolge extrahiert und dann in die Ausgabedatei platziert wird. Beispiel:
{
"tokens" : {
"header" : " # {} " ,
"h1" : " n # {} " ,
"h2" : " n # {} " ,
"b" : " n ## {} " ,
"li" : " + {} " ,
"i" : " ** {} ** " ,
"p" : " n {} " ,
"span" : " {} "
}
} Im obigen Beispiel wird der Inhalt des HTML -Tags <header> in die # {} -Sziel extrahiert. Wenn wir beispielsweise <header>Some text here!</header> Das Ergebnis wäre # Some text here! (Dies format den Text in Markdown).
Fühlen Sie sich frei, Ihren Beitrag hier zu lassen, ich würde es sehr schätzen! Wenn Sie Zweifel oder Probleme mit diesem Paket verwenden, kontaktieren Sie mich einfach oder hinterlassen Sie ein Problem.