Небольшой пакет Python, который я сделал для извлечения HTML -контента с веб -страниц. Это очень настраиваемо, и я сделал это, чтобы соответствовать моим потребностям (извлеките код нескольких страниц на уменю, но только некоторые теги HTML, которые мне нуждались). Из -за того, что он способен преобразовать конкретные теги HTML в желаемый формат маркировки, этот скрипт не генерирует никаких стандартных выводов, скорее, он использует пользовательские токены, указанные в файле конфигурации, поэтому выход может быть отформатирован во что угодно.
Чтобы использовать этот пакет, вам понадобится установка с помощью pip :
pip install markout-htmlТогда просто импортируйте его в свой код:
from markout_html import * После этого вы можете использовать функции extract_url и extract_html :
result = extract_url (
# HTML page link
'http://example.page.com/blog/some_post.html' ,
# Tokens to format each HTML tags contents (you can extract only the ones you want)
{
'p' : " n ** {} **"
},
# Only extract contents inside this tag
'article'
)
result = extract_html (
# HTML code string
'<html>some html code</html>' ,
# Tokens to format each HTML tags contents (you can extract only the ones you want)
{
'p' : " n ** {} **"
},
# Only extract contents inside this tag
'article'
)Ниже приведены несколько примеров с лучшим описанием того, как использовать эту команду пакета, если вы не хотите создавать сценарий Python!
Если вы просто хотите извлечь с помощью строки в терминале, вы можете использовать markout_html --extract [string] .
Вы можете использовать команду markout_html с флагом --help для получения дополнительной информации.
Все конфигурации могут быть найдены в один файл: .markoutrc.json (вы можете указать другое имя в терминале с помощью флага --config ), если вы не загружаете файл конфигурации, скрипт будет использовать значения по умолчанию. В корне репозитория есть пример конфигурации!
Чтобы указать другой файл конфигурации:
markout_html --config [filename] links - объект ссылок, которые должны быть извлечены, каждая ссылка имеет значение назначения (выходной файл). Пример:
{
"links" : {
"http://example.page.com/blog/some_post.html" : " out/post.md " ,
"http://example.page.com/blog/some_other_post.html" : " out/other_post.md "
}
} Приведенный выше пример получит HTML от http://example.page.com/blog/some_post.html и извлекит результаты в out/post.md .
only_on - строка , которая указывает, где (какой тег HTML) извлечь содержимое из (например: html, body, main). Пример:
{
"only_on" : " article "
} tokens - объект , в котором каждый указанный тег HTML будет извлекать в форматированную строку, а затем помещен в выходной файл. Пример:
{
"tokens" : {
"header" : " # {} " ,
"h1" : " n # {} " ,
"h2" : " n # {} " ,
"b" : " n ## {} " ,
"li" : " + {} " ,
"i" : " ** {} ** " ,
"p" : " n {} " ,
"span" : " {} "
}
} В приведенном выше примере содержимое тега HTML <header> будет извлечено в строку # {} , так что, например, если бы у нас был <header>Some text here!</header> # Some text here! (Это форматирует текст в разметке).
Не стесняйтесь оставить свой вклад здесь, я бы очень признателен! Кроме того, если у вас есть какие -либо сомнения или проблемы с использованием этого пакета, просто свяжитесь со мной или оставьте проблему.