웹 페이지에서 HTML 컨텐츠를 추출하기 위해 만든 작은 파이썬 패키지. 매우 사용자 정의 가능하며 내 요구에 맞게 만들었습니다 (여러 페이지 코드를 Markdown으로 추출하지만 필요한 HTML 태그 만 추출합니다). 특정 HTML 태그를 원하는 Markdown 형식으로 변환 할 수 있기 때문에이 스크립트는 표준 출력을 생성하지 않고 구성 파일에 지정된 사용자 정의 토큰을 사용하므로 출력이 무엇이든 형식화 될 수 있습니다.
이 패키지를 사용하려면 pip 사용하여 설치해야합니다.
pip install markout-html그런 다음 코드로 가져 오기 만하면됩니다.
from markout_html import * 그런 다음 extract_url 및 extract_html 함수를 사용할 수 있습니다.
result = extract_url (
# HTML page link
'http://example.page.com/blog/some_post.html' ,
# Tokens to format each HTML tags contents (you can extract only the ones you want)
{
'p' : " n ** {} **"
},
# Only extract contents inside this tag
'article'
)
result = extract_html (
# HTML code string
'<html>some html code</html>' ,
# Tokens to format each HTML tags contents (you can extract only the ones you want)
{
'p' : " n ** {} **"
},
# Only extract contents inside this tag
'article'
)아래는 파이썬 스크립트를 만들고 싶지 않은 경우이 패키지 명령을 사용하는 방법에 대한 더 나은 설명이있는 몇 가지 예입니다!
터미널에서 문자열을 사용하여 추출하려면 markout_html --extract [string] 사용할 수 있습니다.
자세한 내용은 플래그 --help 와 함께 markout_html 명령을 사용할 수 있습니다.
모든 구성은 단일 파일로 찾을 수 있습니다. .markoutrc.json (플래그 --config 사용하여 터미널의 다른 이름을 지정할 수 있습니다). 구성 파일을로드하지 않으면 스크립트가 기본값을 사용합니다. 저장소 루트에는 구성의 예가 있습니다!
다른 구성 파일 사용을 지정하려면 다음과 같습니다.
markout_html --config [filename] links - 추출 할 링크의 개체 , 각 링크에는 대상 값 (출력 파일)이 있습니다. 예:
{
"links" : {
"http://example.page.com/blog/some_post.html" : " out/post.md " ,
"http://example.page.com/blog/some_other_post.html" : " out/other_post.md "
}
} 위의 예는 http://example.page.com/blog/some_post.html 에서 html을 얻고 결과를 out/post.md 로 추출합니다.
only_on (예 : HTML, BODY, MAIN)에서 내용을 추출 할 위치 (HTML 태그)를 지정하는 문자열 . 예:
{
"only_on" : " article "
} tokens - 지정된 각 지정된 HTML 태그가 형식으로 추출 된 문자열로 추출한 다음 출력 파일에 배치하는 객체 . 예:
{
"tokens" : {
"header" : " # {} " ,
"h1" : " n # {} " ,
"h2" : " n # {} " ,
"b" : " n ## {} " ,
"li" : " + {} " ,
"i" : " ** {} ** " ,
"p" : " n {} " ,
"span" : " {} "
}
} 위의 예에서, HTML 태그 <header> 의 내용은 # {} 문자열로 추출되므로 예를 들어 <header>Some text here!</header> 결과는 # Some text here! (이것은 텍스트를 Markdown으로 형식화합니다).
당신의 기여를 여기에 남겨 두십시오. 정말 감사하겠습니다! 또한이 패키지를 사용하는 의심이나 문제가있는 경우 저에게 연락하거나 문제를 남기십시오.