Xidel est un outil de ligne de commande pour télécharger et extraire les données des pages HTML / XML à l'aide de sélecteurs CSS, XPATH / XQuery 3.0, ainsi que d'interroger des fichiers JSON ou des API (par exemple REST) à l'aide de JSONIQ.
Il existe des binaires sans dépendance pour Windows, Linux et Mac.
Il s'agit d'un wrapper autour de mes outils Internet Pascal (voir Repository InternAttools), il prend donc en charge les sélecteurs XPath 2.0, XPATH 3.0, XQuery 1.0, XQuery 3.0, JSONIQ, CSS et mes propres extensions / langues (par exemple, correspondant à un modèle) et si vous pouvez compiler ce projet, vous pouvez compiler Xidel.
Un exemple simple pour retourner les titres de toutes les pages liées par une page de départ:
xidel http://example.org --follow //a --extract //title
ou plus simple
xidel http://example.org -f //a -e //title
La langue peut être explicitement choisie. Par exemple
xidel input.html --css 'a'
xidel input.html --xpath '//a/@href'
xidel input.html --xquery 'for $var in //a order by $var return $var'
Renvoie tous les liens, l'URI cible de chaque lien ou le texte de tous les liens de manière alphabétique.
Il y a plus d'exemples sur la page ci-dessus avec les binaires, le wiki GitHub et dans les exemples de répertoire.
Vous pouvez le compiler en appelant build.sh et l'installer en appelant build.sh -t . Alternativement, vous pouvez le compiler avec l'IDE de Lazare.
Vous pouvez appeler les commandes du script .travis.yml pour télécharger des dépendances.