Un pequeño paquete de Python que hice para extraer contenido HTML de las páginas web. Es muy personalizable y lo hice para adaptarse a mis necesidades (extraer el código de múltiples páginas a Markdown, pero solo algunas etiquetas HTML que necesitaba). Debido a su propósito, poder convertir las etiquetas HTML específicas en un formato de markdown deseado, este script no genera ninguna salida estándar, más bien, utiliza tokens personalizados especificados en un archivo de configuración, por lo que la salida puede formatearse en cualquier cosa.
Para usar este paquete, deberá instalarlo con pip :
pip install markout-htmlLuego, solo importárelo a su código:
from markout_html import * Después de eso, puede usar las funciones extract_url y extract_html :
result = extract_url (
# HTML page link
'http://example.page.com/blog/some_post.html' ,
# Tokens to format each HTML tags contents (you can extract only the ones you want)
{
'p' : " n ** {} **"
},
# Only extract contents inside this tag
'article'
)
result = extract_html (
# HTML code string
'<html>some html code</html>' ,
# Tokens to format each HTML tags contents (you can extract only the ones you want)
{
'p' : " n ** {} **"
},
# Only extract contents inside this tag
'article'
)¡A continuación hay algunos ejemplos con mejor descripción sobre cómo usar este comando de paquete si no desea crear un script de Python!
Si solo desea extraer usando una cadena en el terminal, puede usar markout_html --extract [string] .
Puede usar el comando markout_html con el indicador --help para obtener más información.
Todas las configuraciones se pueden encontrar en un solo archivo: .markoutrc.json (puede especificar otro nombre en el terminal con el indicador --config ), si no carga un archivo de configuración, el script usará sus valores predeterminados. ¡Hay un ejemplo de configuración en la raíz del repositorio!
Para especificar un uso de archivo de configuración diferente:
markout_html --config [filename] links : objeto de enlaces a extraer, cada enlace tiene un valor de destino (archivo de salida). Ejemplo:
{
"links" : {
"http://example.page.com/blog/some_post.html" : " out/post.md " ,
"http://example.page.com/blog/some_other_post.html" : " out/other_post.md "
}
} El ejemplo anterior obtendrá el HTML de http://example.page.com/blog/some_post.html y extraer los resultados en out/post.md .
only_on - cadena que especifica dónde (qué etiqueta HTML) extraer el contenido de (por ejemplo: html, cuerpo, principal). Ejemplo:
{
"only_on" : " article "
} tokens : objeto en el que cada etiqueta HTML especificada se extraerá en una cadena formateada y luego se coloca en el archivo de salida. Ejemplo:
{
"tokens" : {
"header" : " # {} " ,
"h1" : " n # {} " ,
"h2" : " n # {} " ,
"b" : " n ## {} " ,
"li" : " + {} " ,
"i" : " ** {} ** " ,
"p" : " n {} " ,
"span" : " {} "
}
} En el ejemplo anterior, el contenido de la etiqueta HTML <header> se extraerá en la cadena # {} , por lo que, por ejemplo, si tuviéramos <header>Some text here!</header> ¡El resultado habría sido # Some text here! (Esto formatea el texto en Markdown).
Siéntase libre de dejar su contribución aquí, ¡realmente lo agradecería! Además, si tiene alguna duda o problema con este paquete, simplemente contácteme o deje un problema.