markoutダウンロード - markoutアウトソースコードのダウンロード

markout

AI ソースコード

1.0.0

ダウンロード

WebページからHTMLコンテンツを抽出するために作成した小さなPythonパッケージ。それは非常にカスタマイズ可能であり、私は自分のニーズに合うようにしました（複数のページのコードをマークダウンに抽出しますが、必要なHTMLタグのみ）。その目的が特定のHTMLタグを目的のマークダウン形式に変換できるため、このスクリプトは標準出力を生成しません。むしろ、構成ファイルで指定されたカスタムトークンを使用するため、出力を何でもフォーマットできます。

使用法

コードにインポートします

このパッケージを使用するには、 pipを使用してインストールする必要があります。

pip install markout-html

次に、コードにインポートするだけです。

 from markout_html import *

その後、 extract_urlとextract_html関数を使用できます。

 result = extract_url (
  # HTML page link
  'http://example.page.com/blog/some_post.html' ,

  # Tokens to format each HTML tags contents (you can extract only the ones you want)
  {
    'p' : " n ** {} **"
  },

  # Only extract contents inside this tag
  'article'
)

result = extract_html (
  # HTML code string
  '<html>some html code</html>' ,

  # Tokens to format each HTML tags contents (you can extract only the ones you want)
  {
    'p' : " n ** {} **"
  },

  # Only extract contents inside this tag
  'article'
)

CLIコマンドを使用します

以下は、Pythonスクリプトを作成したくない場合は、このパッケージコマンドの使用方法についてのより良い説明を備えたいくつかの例です。

端末に文字列を使用して抽出するだけの場合は、 markout_html --extract [string]を使用できます。

詳細については、Flagを使用--helpてコマンドmarkout_html使用してください。

構成

すべての構成は、 .markoutrc.json （flag --configを使用して端末の別の名前を指定できます）を1つのファイルに記載します。構成ファイルをロードしないと、スクリプトがデフォルト値を使用します。リポジトリルートに構成の例があります！

別の構成ファイルを指定するには：

markout_html --config [filename]

構成ファイル値

links - 抽出されるリンクのオブジェクト、各リンクには宛先値（出力ファイル）があります。例：

{
  "links" : {
    "http://example.page.com/blog/some_post.html" : " out/post.md " ,
    "http://example.page.com/blog/some_other_post.html" : " out/other_post.md "
  }
}

上記の例では、 http://example.page.com/blog/some_post.htmlからHTMLを取得し、結果をout/post.mdに抽出します。

only_on内容（html、body、main）から内容を抽出する場所（どのhtmlタグ）を指定する文字列。例：

{
  "only_on" : " article "
}

tokens - 指定された各HTMLタグがフォーマットされた文字列に抽出され、出力ファイルに配置されるオブジェクト。例：

{
  "tokens" : {
    "header" : " # {} " ,
    "h1" : " n # {} " ,
    "h2" : " n # {} " ,
    "b" : " n ## {} " ,
    "li" : " + {} " ,
    "i" : " ** {} ** " ,
    "p" : " n {} " ,
    "span" : " {} "
  }
}