Herramienta de línea de comandos para extraer el contenido principal de una página web, según lo realizado por la característica "Vista del lector" de la mayoría de los navegadores modernos. Está destinado a usarse con lectores de RSS terminales, para que los artículos sean más legibles en navegadores web como Lynx. El código está estrechamente adaptado de la versión de Firefox y se espera que la salida sea principalmente equivalente.
Esta herramienta es joven y es escrita en C, por lo que es razonable preguntarse sobre el potencial de problemas de memoria. Para estar seguro, todo el análisis HTML ocurre dentro de un subproceso de caja de arena. SECCOMP se usa para este propósito en Linux, compromete en OpenBSD y Capsicum en FreeBSD.
Hay tres dependencias directas: libxml2, libseccomp y libcurl. En Debian/Ubuntu, puede instalar los dos primeros ejecutando (como root):
apt install libxml2-dev libseccomp-dev
El paquete Libcurl viene en diferentes sabores, dependiendo del backend que proporcione el soporte SSL. Cualquiera de ellos lo hará. Para instalar la versión GNUTLS:
apt install libcurl4-gnutls-dev
Para que RDRVIEW sea útil, también debe obtener un navegador web en modo de personaje como Lynx:
apt install lynx
El nombre de los paquetes puede diferir en su distribución. En Fedora, por ejemplo, puede instalar todo con:
dnf install libcurl-devel libxml2-devel libseccomp-devel lynx
Para construir RDRVIEW , solo CD a su directorio y ejecute
make
Ahora debería estar listo para ser utilizado. Puedes probar:
./rdrview 'https://github.com/eafer/rdrview'
Para obtener más información, consulte la página del hombre:
man ./rdrview.1
Si encuentra útil RDRVIEW y desea instalarlo, vuelva a ser root y ejecute
make install
Ahora puede llamarlo con rdrview y obtener ayuda con man rdrview , como lo haría para cualquier otra herramienta de su sistema.
Para construir RDRVIEW en los BSD, necesitará hacer GNU y las bibliotecas. Se recomienda tener un navegador terminal disponible. En OpenBsd, conviértete en root y ejecuta
pkg_add gmake gcc libxml curl lynx
En FreeBSD, eso sería
pkg install gmake gcc libxml2 curl lynx
Ahora puede CD en el directorio de origen y ejecutar gmake para la compilación, y opcionalmente gmake install para la instalación. Los BSD no proporcionan ningún archivo de mailcap de forma predeterminada, por lo que para ejecutar RDRVIEW deberá especificar el navegador web:
./rdrview -B lynx 'https://github.com/eafer/rdrview'
No soy dueño de ninguna computadora de Apple para probar esto yo mismo, pero me han dicho que RDRVIEW se basa en macOS. Todavía no se ha implementado un sandbox, pero la herramienta aún se puede ejecutar con el indicador --disable-sandbox , siempre que el usuario entienda el riesgo.
RDRVIEW fue escrita por Ernesto A. Fernández, pero es principalmente una transpilación realizada a mano de la Readability.js de Mozilla; que era en sí mismo, en sus propias palabras, "muy basado en Arc90's Readability.js". Esta es la licencia original:
Copyright (c) 2010 Arc90 Inc
Licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.