Скачать markout - markout исходного кода.

markout

AI Исходный код

1.0.0

Скачать

Небольшой пакет Python, который я сделал для извлечения HTML -контента с веб -страниц. Это очень настраиваемо, и я сделал это, чтобы соответствовать моим потребностям (извлеките код нескольких страниц на уменю, но только некоторые теги HTML, которые мне нуждались). Из -за того, что он способен преобразовать конкретные теги HTML в желаемый формат маркировки, этот скрипт не генерирует никаких стандартных выводов, скорее, он использует пользовательские токены, указанные в файле конфигурации, поэтому выход может быть отформатирован во что угодно.

Использование

Импорт в ваш код

Чтобы использовать этот пакет, вам понадобится установка с помощью pip :

pip install markout-html

Тогда просто импортируйте его в свой код:

 from markout_html import *

После этого вы можете использовать функции extract_url и extract_html :

 result = extract_url (
  # HTML page link
  'http://example.page.com/blog/some_post.html' ,

  # Tokens to format each HTML tags contents (you can extract only the ones you want)
  {
    'p' : " n ** {} **"
  },

  # Only extract contents inside this tag
  'article'
)

result = extract_html (
  # HTML code string
  '<html>some html code</html>' ,

  # Tokens to format each HTML tags contents (you can extract only the ones you want)
  {
    'p' : " n ** {} **"
  },

  # Only extract contents inside this tag
  'article'
)

Использование команды CLI

Ниже приведены несколько примеров с лучшим описанием того, как использовать эту команду пакета, если вы не хотите создавать сценарий Python!

Если вы просто хотите извлечь с помощью строки в терминале, вы можете использовать markout_html --extract [string] .

Вы можете использовать команду markout_html с флагом --help для получения дополнительной информации.

Конфигурация

Все конфигурации могут быть найдены в один файл: .markoutrc.json (вы можете указать другое имя в терминале с помощью флага --config ), если вы не загружаете файл конфигурации, скрипт будет использовать значения по умолчанию. В корне репозитория есть пример конфигурации!

Чтобы указать другой файл конфигурации:

markout_html --config [filename]

Значения файла конфигурации

links - объект ссылок, которые должны быть извлечены, каждая ссылка имеет значение назначения (выходной файл). Пример:

{
  "links" : {
    "http://example.page.com/blog/some_post.html" : " out/post.md " ,
    "http://example.page.com/blog/some_other_post.html" : " out/other_post.md "
  }
}

Приведенный выше пример получит HTML от http://example.page.com/blog/some_post.html и извлекит результаты в out/post.md .

only_on - строка , которая указывает, где (какой тег HTML) извлечь содержимое из (например: html, body, main). Пример:

{
  "only_on" : " article "
}

tokens - объект , в котором каждый указанный тег HTML будет извлекать в форматированную строку, а затем помещен в выходной файл. Пример:

{
  "tokens" : {
    "header" : " # {} " ,
    "h1" : " n # {} " ,
    "h2" : " n # {} " ,
    "b" : " n ## {} " ,
    "li" : " + {} " ,
    "i" : " ** {} ** " ,
    "p" : " n {} " ,
    "span" : " {} "
  }
}

В приведенном выше примере содержимое тега HTML <header> будет извлечено в строку # {} , так что, например, если бы у нас был <header>Some text here!</header> # Some text here! (Это форматирует текст в разметке).

Вклад

Не стесняйтесь оставить свой вклад здесь, я бы очень признателен! Кроме того, если у вас есть какие -либо сомнения или проблемы с использованием этого пакета, просто свяжитесь со мной или оставьте проблему.

Расширять

Дополнительная информация