Um pequeno pacote Python que fiz para extrair conteúdo HTML das páginas da web. É muito personalizável e cheguei a atender às minhas necessidades (extraia o código de várias páginas para marcar, mas apenas algumas tags HTML que eu precisava). Devido ao seu objetivo ser capaz de converter tags HTML específicas em um formato de marcação desejado, esse script não gera nenhuma saída padrão; em vez disso, ele usa tokens personalizados especificados em um arquivo de configuração, para que a saída possa ser formatada em qualquer coisa.
Para usar este pacote, você precisará instalá -lo usando pip :
pip install markout-htmlEm seguida, basta importá -lo para o seu código:
from markout_html import * Depois disso, você pode usar as funções extract_url e extract_html :
result = extract_url (
# HTML page link
'http://example.page.com/blog/some_post.html' ,
# Tokens to format each HTML tags contents (you can extract only the ones you want)
{
'p' : " n ** {} **"
},
# Only extract contents inside this tag
'article'
)
result = extract_html (
# HTML code string
'<html>some html code</html>' ,
# Tokens to format each HTML tags contents (you can extract only the ones you want)
{
'p' : " n ** {} **"
},
# Only extract contents inside this tag
'article'
)Abaixo estão alguns exemplos com melhor descrição sobre como usar este comando pacote se você não deseja criar um script python!
Se você deseja apenas extrair usando uma string no terminal, poderá usar markout_html --extract [string] .
Você pode usar o comando markout_html com a bandeira --help para obter mais informações.
Todas as configurações podem ser encontradas em um único arquivo: .markoutrc.json (você pode especificar outro nome no terminal com o sinalizador --config ), se você não carregar um arquivo de configuração, o script usará seus valores padrão. Há um exemplo de configuração na raiz do repositório!
Para especificar um arquivo de configuração diferente, uso:
markout_html --config [filename] links - Objeto dos links a serem extraídos, cada link possui um valor de destino (arquivo de saída). Exemplo:
{
"links" : {
"http://example.page.com/blog/some_post.html" : " out/post.md " ,
"http://example.page.com/blog/some_other_post.html" : " out/other_post.md "
}
} O exemplo acima receberá o html em http://example.page.com/blog/some_post.html e extraia os resultados para out/post.md .
only_on - string que especificam onde (qual tag html) extrair o conteúdo de (por exemplo: html, corpo, principal). Exemplo:
{
"only_on" : " article "
} tokens - Objeto no qual cada tag HTML especificada será extraída para uma sequência formatada e, em seguida, colocada no arquivo de saída. Exemplo:
{
"tokens" : {
"header" : " # {} " ,
"h1" : " n # {} " ,
"h2" : " n # {} " ,
"b" : " n ## {} " ,
"li" : " + {} " ,
"i" : " ** {} ** " ,
"p" : " n {} " ,
"span" : " {} "
}
} No exemplo acima, o conteúdo da tag html <header> será extraído para a string # {} , por exemplo, se tivéssemos <header>Some text here!</header> # Some text here! (Isso formata o texto em Markdown).
Sinta -se à vontade para deixar sua contribuição aqui, eu realmente apreciaria! Além disso, se você tiver alguma dúvida ou problemas usando este pacote, entre em contato comigo ou deixe um problema.