ページ内の HTML 内のテキスト以外のコードを削除します。リリースされたばかりの php バージョンは ASP のバージョンです。 ASP関数コード
次のようにコードをコピーします。
<%
関数 RemoveHTML(str)
Dim objRegExp、Match、strHTML
isnull(str) の場合
str=
終了する場合
strHTML=str
strHTML=replace(replace(replace(strHTML,vblf,),vbcr,),vbcrlf,)
objRegExp = 新しい正規表現を設定します
objRegExp.IgnoreCase = True
objRegExp.Global = True
objRegExp.Pattern = <script[^>]*?>.*?</script>
strHTML = objRegExp.Replace(strHTML,)
objRegExp.Pattern = <style[^>]*?>.*?</style>
strHTML = objRegExp.Replace(strHTML,)
objRegExp.Pattern = <.+?>
strHTML = objRegExp.Replace(strHTML,)
objRegExp = なしを設定します
RemoveHTML=strHTML
終了機能
%>
PHPのコード
次のようにコードをコピーします。
<?php
$search = array ('<script[^>]*?>.*?</script>'si, // JavaScript を削除します
'<style[^>]*?>.*?</style>'si, // CSSを削除
'<[/!]*?[^<>]*?>'si, // HTML タグを削除します
'<!--[/!]*?[^<>]*?>'si, // コメントマークを削除します
'([rn])[s]+', // 空白文字を削除します
'&(quot|#34);'i, // HTML エンティティを置換します
「&(amp|#38);」私、
「&(lt|#60);」私、
'&(gt|#62);'私、
「&(nbsp|#160);」私、
'&(iexcl|#161);'私、
'&(cent|#162);'私、
'&(ポンド|#163);'私、
'&(copy|#169);'私、
'&#(d+);'e); // PHP コードとして実行
$replace = 配列 (,
、
、
、
/1、
/、
&、
<、
>、
、
chr(161)、
chr(162)、
chr(163)、
chr(169)、
chr(/1));
//$document は処理する必要がある文字列です。ソースがファイルの場合、$document = file_get_contents('http://www.sina.com.cn');
$out = preg_replace($search, $replace, $document);
エコー $out;
?>
get.php として保存するだけです。