กำจัดโค้ดอื่น ๆ ที่ไม่ใช่ข้อความใน html ในหน้า เวอร์ชัน php ที่เพิ่งเปิดตัวคือเวอร์ชันใน ASP รหัสฟังก์ชัน asp
คัดลอกรหัสรหัสดังต่อไปนี้:
-
ฟังก์ชั่น RemoveHTML(str)
Dim objRegExp, จับคู่,strHTML
ถ้า isnull(str) แล้ว
STR=
สิ้นสุดถ้า
strHTML=str
strHTML=แทนที่(แทนที่(แทนที่(strHTML,vblf,),vbcr,),vbcrlf,)
ตั้งค่า objRegExp = Regexp ใหม่
objRegExp.IgnoreCase = จริง
objRegExp.Global = จริง
objRegExp.Pattern = <script[^>]*?>.*?</script>
strHTML = objRegExp.แทนที่(strHTML,)
objRegExp.Pattern = <สไตล์[^>]*?>.*?</style>
strHTML = objRegExp.แทนที่(strHTML,)
objRegExp.Pattern = <.+?>
strHTML = objRegExp.แทนที่(strHTML,)
ตั้งค่า objRegExp = ไม่มีเลย
RemoveHTML=strHTML
ฟังก์ชันสิ้นสุด
-
รหัสใน php.ini
คัดลอกรหัสรหัสดังต่อไปนี้:
<?php
$search = array ('<script[^>]*?>.*?</script>'si, // ลบจาวาสคริปต์
'<style[^>]*?>.*?</style>'si, // ลบ CSS
'<[/!]*?[^<>]*?>'si, // ลบแท็ก HTML
'<!--[/!]*?[^<>]*?>'si, // ลบเครื่องหมายความคิดเห็นออก
'([rn])[s]+', // ลบอักขระช่องว่าง
'&(quot|#34);'i, // แทนที่เอนทิตี HTML
'&(แอมป์|#38);'ฉัน,
'&(lt|#60);'ฉัน,
'&(gt|#62);'ฉัน,
'&(nbsp|#160);'ฉัน
'&(iexcl|#161);'ฉัน,
'&(ร้อยละ|#162);'ฉัน
'&(ปอนด์|#163);'ฉัน
'&(คัดลอก|#169);'i,
''(d+);'e); // เรียกใช้เป็นโค้ด PHP
$แทนที่ = อาร์เรย์ (,
-
-
-
/1,
-
-
-
-
-
CH(161)
CH(162)
CH(163),
CH(169)
ch(/1));
//$document คือสตริงที่ต้องประมวลผล หากแหล่งที่มาเป็นไฟล์ $document = file_get_contents('http://www.sina.com.cn');
$out = preg_replace($ค้นหา, $แทนที่, $document);
สะท้อน $ ออก;
-
เพียงบันทึกเป็น get.php