Download de markout - Download do código -fonte markout

markout

Código-Fonte de IA

1.0.0

Baixar

Um pequeno pacote Python que fiz para extrair conteúdo HTML das páginas da web. É muito personalizável e cheguei a atender às minhas necessidades (extraia o código de várias páginas para marcar, mas apenas algumas tags HTML que eu precisava). Devido ao seu objetivo ser capaz de converter tags HTML específicas em um formato de marcação desejado, esse script não gera nenhuma saída padrão; em vez disso, ele usa tokens personalizados especificados em um arquivo de configuração, para que a saída possa ser formatada em qualquer coisa.

Uso

Importando para o seu código

Para usar este pacote, você precisará instalá -lo usando pip :

pip install markout-html

Em seguida, basta importá -lo para o seu código:

 from markout_html import *

Depois disso, você pode usar as funções extract_url e extract_html :

 result = extract_url (
  # HTML page link
  'http://example.page.com/blog/some_post.html' ,

  # Tokens to format each HTML tags contents (you can extract only the ones you want)
  {
    'p' : " n ** {} **"
  },

  # Only extract contents inside this tag
  'article'
)

result = extract_html (
  # HTML code string
  '<html>some html code</html>' ,

  # Tokens to format each HTML tags contents (you can extract only the ones you want)
  {
    'p' : " n ** {} **"
  },

  # Only extract contents inside this tag
  'article'
)

Usando o comando da CLI

Abaixo estão alguns exemplos com melhor descrição sobre como usar este comando pacote se você não deseja criar um script python!

Se você deseja apenas extrair usando uma string no terminal, poderá usar markout_html --extract [string] .

Você pode usar o comando markout_html com a bandeira --help para obter mais informações.

Configuração

Todas as configurações podem ser encontradas em um único arquivo: .markoutrc.json (você pode especificar outro nome no terminal com o sinalizador --config ), se você não carregar um arquivo de configuração, o script usará seus valores padrão. Há um exemplo de configuração na raiz do repositório!

Para especificar um arquivo de configuração diferente, uso:

markout_html --config [filename]

Os valores do arquivo de configuração

links - Objeto dos links a serem extraídos, cada link possui um valor de destino (arquivo de saída). Exemplo:

{
  "links" : {
    "http://example.page.com/blog/some_post.html" : " out/post.md " ,
    "http://example.page.com/blog/some_other_post.html" : " out/other_post.md "
  }
}

O exemplo acima receberá o html em http://example.page.com/blog/some_post.html e extraia os resultados para out/post.md .

only_on - string que especificam onde (qual tag html) extrair o conteúdo de (por exemplo: html, corpo, principal). Exemplo:

{
  "only_on" : " article "
}

tokens - Objeto no qual cada tag HTML especificada será extraída para uma sequência formatada e, em seguida, colocada no arquivo de saída. Exemplo:

{
  "tokens" : {
    "header" : " # {} " ,
    "h1" : " n # {} " ,
    "h2" : " n # {} " ,
    "b" : " n ## {} " ,
    "li" : " + {} " ,
    "i" : " ** {} ** " ,
    "p" : " n {} " ,
    "span" : " {} "
  }
}

No exemplo acima, o conteúdo da tag html <header> será extraído para a string # {} , por exemplo, se tivéssemos <header>Some text here!</header> # Some text here! (Isso formata o texto em Markdown).

Contribuições

Sinta -se à vontade para deixar sua contribuição aqui, eu realmente apreciaria! Além disso, se você tiver alguma dúvida ou problemas usando este pacote, entre em contato comigo ou deixe um problema.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-01
tamanho 9.89KB
Vindo de Github

Aplicativos Relacionados

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos