Téléchargement markout - Téléchargement du code source markout

markout

Code Source AI

1.0.0

Télécharger

Un petit package Python que j'ai fait pour extraire le contenu HTML à partir des pages Web. Il est très personnalisable et j'ai réussi à répondre à mes besoins (extraire le code de plusieurs pages à Markdown, mais seulement quelques balises HTML dont j'avais besoin). En raison de son objectif, il est capable de convertir des balises HTML spécifiques en format de démarque souhaité, ce script ne génère aucune sortie standard, il utilise plutôt des jetons personnalisés spécifiés dans un fichier de configuration, de sorte que la sortie peut être formatée en n'importe quoi.

Usage

Importation dans votre code

Pour utiliser ce package, vous devrez l'installer à l'aide de pip :

pip install markout-html

Ensuite, importez-le dans votre code:

 from markout_html import *

Après cela, vous pouvez utiliser les fonctions extract_url et extract_html :

 result = extract_url (
  # HTML page link
  'http://example.page.com/blog/some_post.html' ,

  # Tokens to format each HTML tags contents (you can extract only the ones you want)
  {
    'p' : " n ** {} **"
  },

  # Only extract contents inside this tag
  'article'
)

result = extract_html (
  # HTML code string
  '<html>some html code</html>' ,

  # Tokens to format each HTML tags contents (you can extract only the ones you want)
  {
    'p' : " n ** {} **"
  },

  # Only extract contents inside this tag
  'article'
)

En utilisant la commande CLI

Voici quelques exemples avec une meilleure description sur la façon d'utiliser cette commande de package si vous ne souhaitez pas créer un script Python!

Si vous souhaitez simplement extraire à l'aide d'une chaîne dans le terminal, vous pouvez utiliser markout_html --extract [string] .

Vous pouvez utiliser la commande markout_html avec l'indicateur --help pour plus d'informations.

Configuration

Toutes les configurations peuvent être trouvées dans un seul fichier: .markoutrc.json (vous pouvez spécifier un autre nom dans le terminal avec l'indicateur --config ), si vous ne chargez pas de fichier de configuration, le script utilisera ses valeurs par défaut. Il y a un exemple de configuration dans la racine du référentiel!

Pour spécifier une autre utilisation du fichier de configuration:

markout_html --config [filename]

Les valeurs du fichier de configuration

links - Objet des liens à extraire, chaque lien a une valeur de destination (fichier de sortie). Exemple:

{
  "links" : {
    "http://example.page.com/blog/some_post.html" : " out/post.md " ,
    "http://example.page.com/blog/some_other_post.html" : " out/other_post.md "
  }
}

L'exemple ci-dessus obtiendra le HTML de http://example.page.com/blog/some_post.html et extraire les résultats dans out/post.md

only_on - chaîne qui spécifie d'où (quelle balise html) pour extraire le contenu de (par exemple: html, corps, main). Exemple:

{
  "only_on" : " article "
}

tokens - Objet dans lequel chaque balise HTML spécifiée sera extraite dans une chaîne formatée, puis placée sur le fichier de sortie. Exemple:

{
  "tokens" : {
    "header" : " # {} " ,
    "h1" : " n # {} " ,
    "h2" : " n # {} " ,
    "b" : " n ## {} " ,
    "li" : " + {} " ,
    "i" : " ** {} ** " ,
    "p" : " n {} " ,
    "span" : " {} "
  }
}

Sur l'exemple ci-dessus, le contenu de la balise HTML <header> sera extrait dans la chaîne # {} , donc par exemple, si nous avions <header>Some text here!</header> Le résultat aurait été # Some text here! (Cela formate le texte dans Markdown).

Contributions

N'hésitez pas à quitter votre contribution ici, je l'apprécierais vraiment! De plus, si vous avez des doutes ou des problèmes en utilisant ce package, contactez-moi ou laissez un problème.

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-09-01
taille 9.89KB
Provenant de Github

Applications connexes

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout