php readability
2.0.4
這是此全文rss叉中可讀性類的摘錄。它可以定義為原始PHP可讀性的更好版本。
默認的PHP可讀性LIB確實很舊,需要改進。我發現了@dither的全文rss的巨大叉子,可以改善可讀性類別。
php-cs-fixer並添加了一個名稱空間但是代碼仍然很難理解 /閱讀...
默認情況下,如果可用,該自由行將使用整齊的擴展名。整理僅用於清理給定的HTML,並避免HTML結構不良等問題。
另外,如果您通過未安裝整齊的內容來解析內容有問題,請安裝它,然後重試。
use Readability Readability ;
$ url = ' http://www.medialens.org/index.php/alerts/alert-archive/alerts-2013/729-thatcher.html ' ;
// you can use whatever you want to retrieve the html content (Guzzle, Buzz, cURL ...)
$ html = file_get_contents ( $ url );
$ readability = new Readability ( $ html , $ url );
// or without Tidy
// $readability = new Readability($html, $url, 'libxml', false);
$ result = $ readability -> init ();
if ( $ result ) {
// display the title of the page
echo $ readability -> getTitle ()-> textContent ;
// display the *readability* content
echo $ readability -> getContent ()-> textContent ;
} else {
echo ' Looks like we couldn ' t find the content. :( ' ;
}如果要調試它,或檢查發生了什麼,可以注入記錄器(必須遵循PsrLogLoggerInterface ,konololog):
use Readability Readability ;
use Monolog Logger ;
use Monolog Handler StreamHandler ;
$ url = ' http://www.medialens.org/index.php/alerts/alert-archive/alerts-2013/729-thatcher.html ' ;
$ html = file_get_contents ( $ url );
$ logger = new Logger ( ' readability ' );
$ logger -> pushHandler ( new StreamHandler ( ' path/to/your.log ' , Logger:: DEBUG ));
$ readability = new Readability ( $ html , $ url );
$ readability -> setLogger ( $ logger );