1。アプリケーションシナリオ: HTMLファイルまたは文字列(HTMLコンテンツ)からプレーンテキストを抽出し、Webページタグを削除します。
2。コード1:替えeallが完了しました
// HTMLからプレーンテキストを抽出しますpublic static string stripht(string strhtml){string txtcontent = strhtml.replaceall( "</?[^>]+>"、 ""); // <html> tag txtcontent = txtcontent.replaceall( "<a> // s*|/t |/r |/n </a>"、 ""); //文字列のキャリッジリターン、ラインブレーク、タブリターンtxtcontent; }3。コード2:正規表現が完了しました
// HTMLからプレーンテキストを抽出しますpublic static string html2text(string inputstring){string htmlstr = inputstring; // html with html tag string string textstr = ""; java.util.regex.pattern p_script; java.util.regex.matcher m_script; java.util.regex.pattern p_style; java.util.regex.matcher matcher m_style; java.utiln. p_html; java.util.regex.matcher m_style; java.util.regex.pattern p_html; java.util.regex.matcher m_html; try {string regex_script = "<[// s]*?script [^>]*?> [// s // s]*?<[// s]*?// [// s]*?// [// s]*?script [// s]*?>"; //正規表現を定義します{または<script [^>]*?> [// s // s]*?</// script> string regex_style = "<[// s]*?style [^>]*?> [// s // s]*?<[// s]*?// [// s]*?? //正規表現を定義する{または<style [^>]*?> [// s // s]*?</// stirn string regex_html = "<[^>]+>"; //正規表現p_script = pattern.compile(regex_script、pattern.case_insensitive)を定義する; m_script = p_script.matcher(htmlstr); htmlstr = m_script.replaceall( ""); //フィルタースクリプトタグp_style = pattern.compile(regex_style、pattern.case_insensitive); m_style = p_style.matcher(htmlstr); htmlstr = m_style.replaceall( ""); //フィルタースクリプトタグp_style = pattern.compile(regex_style、pattern.case_insensitive); m_style = p_style.matcher(htmlstr); htmlstr = m_style.replaceall( ""); //フィルタースタイルタグp_html = pattern.compile(regex_html、pattern.case_insensitive); m_html = p_html.matcher(htmlstr); htmlstr = m_html.replaceall( ""); // htmlタグtextStr = htmlstrをフィルターします。 } catch(Exception e){System.err.println( "html2Text:" + e.getMessage()); } //スペースラインtextStr = textStr.Replaceall( "[]+"、 ""); textStr = textStr.ReplaceAll( "(?m)^// s*$(// n | // r // n)"、 ""); return textstr; // return text string}4。コード3: htmleditorkit.parsercallbackは、Java自身のクラスです
パッケージcom.util; import java.io。*; import javax.swing.text.html。*; import javax.swing.text.html.parser。 public html2text(){} public void parse(reader in)throws ioexception {s = new StringBuffer(); ParserDelegator Delegator = new ParserDeLegator(); // 3番目のパラメーターは、Charset Direct Delegator.Parse(in、this、boolean.true)を無視するのに当てはまります。 } public void handletext(char [] text、int pos){s.append(text); } public string getText(){return s.toString(); } public static void main(string [] args){try {// html to convert // reader in = new StringReader( "String"); filereader in = new fileReader( "Java-new.html"); html2text parser = new html2text(); parser.parse(in); in.close(); System.out.println(parser.getText()); } catch(Exception e){e.printstacktrace(); }}}HTMLテキストからプレーンテキストを抽出する上記のJavaの方法は、私があなたと共有するすべてのコンテンツです。参照を提供できることを願っています。wulin.comをもっとサポートできることを願っています。