WebページからHTMLコンテンツを抽出するために作成した小さなPythonパッケージ。それは非常にカスタマイズ可能であり、私は自分のニーズに合うようにしました(複数のページのコードをマークダウンに抽出しますが、必要なHTMLタグのみ)。その目的が特定のHTMLタグを目的のマークダウン形式に変換できるため、このスクリプトは標準出力を生成しません。むしろ、構成ファイルで指定されたカスタムトークンを使用するため、出力を何でもフォーマットできます。
このパッケージを使用するには、 pipを使用してインストールする必要があります。
pip install markout-html次に、コードにインポートするだけです。
from markout_html import *その後、 extract_urlとextract_html関数を使用できます。
result = extract_url (
# HTML page link
'http://example.page.com/blog/some_post.html' ,
# Tokens to format each HTML tags contents (you can extract only the ones you want)
{
'p' : " n ** {} **"
},
# Only extract contents inside this tag
'article'
)
result = extract_html (
# HTML code string
'<html>some html code</html>' ,
# Tokens to format each HTML tags contents (you can extract only the ones you want)
{
'p' : " n ** {} **"
},
# Only extract contents inside this tag
'article'
)以下は、Pythonスクリプトを作成したくない場合は、このパッケージコマンドの使用方法についてのより良い説明を備えたいくつかの例です。
端末に文字列を使用して抽出するだけの場合は、 markout_html --extract [string]を使用できます。
詳細については、Flagを使用--helpてコマンドmarkout_html使用してください。
すべての構成は、 .markoutrc.json (flag --configを使用して端末の別の名前を指定できます)を1つのファイルに記載します。構成ファイルをロードしないと、スクリプトがデフォルト値を使用します。リポジトリルートに構成の例があります!
別の構成ファイルを指定するには:
markout_html --config [filename]links - 抽出されるリンクのオブジェクト、各リンクには宛先値(出力ファイル)があります。例:
{
"links" : {
"http://example.page.com/blog/some_post.html" : " out/post.md " ,
"http://example.page.com/blog/some_other_post.html" : " out/other_post.md "
}
}上記の例では、 http://example.page.com/blog/some_post.htmlからHTMLを取得し、結果をout/post.mdに抽出します。
only_on内容(html、body、main)から内容を抽出する場所(どのhtmlタグ)を指定する文字列。例:
{
"only_on" : " article "
} tokens - 指定された各HTMLタグがフォーマットされた文字列に抽出され、出力ファイルに配置されるオブジェクト。例:
{
"tokens" : {
"header" : " # {} " ,
"h1" : " n # {} " ,
"h2" : " n # {} " ,
"b" : " n ## {} " ,
"li" : " + {} " ,
"i" : " ** {} ** " ,
"p" : " n {} " ,
"span" : " {} "
}
}上記の例では、HTMLタグ<header>の内容は# {}文字列に抽出されます。たとえば、 <header>Some text here!</header>がある場合# Some text here! (これはテキストをMarkdownに形成します)。
ここにあなたの貢献を自由に任せてください、私は本当にそれを感謝します!また、このパッケージを使用して疑問や問題がある場合は、私に連絡するか、問題を残してください。