Javaは、HTMLテキストからプレーンテキストを抽出する方法を実装しています

著者：Eve Cole 更新時間：2025-08-25 23:48:01

1。アプリケーションシナリオ： HTMLファイルまたは文字列（HTMLコンテンツ）からプレーンテキストを抽出し、Webページタグを削除します。

2。コード1：替えeallが完了しました

// HTMLからプレーンテキストを抽出しますpublic static string stripht（string strhtml）{string txtcontent = strhtml.replaceall（ "</？[^>]+>"、 ""）; // <html> tag txtcontent = txtcontent.replaceall（ "<a> // s*|/t |/r |/n </a>"、 ""）; //文字列のキャリッジリターン、ラインブレーク、タブリターンtxtcontent; }

3。コード2：正規表現が完了しました

// HTMLからプレーンテキストを抽出しますpublic static string html2text（string inputstring）{string htmlstr = inputstring; // html with html tag string string textstr = ""; java.util.regex.pattern p_script; java.util.regex.matcher m_script; java.util.regex.pattern p_style; java.util.regex.matcher matcher m_style; java.utiln. p_html; java.util.regex.matcher m_style; java.util.regex.pattern p_html; java.util.regex.matcher m_html; try {string regex_script = "<[// s]*？script [^>]*？> [// s // s]*？<[// s]*？// [// s]*？// [// s]*？script [// s]*？>"; //正規表現を定義します{または<script [^>]*？> [// s // s]*？</// script> string regex_style = "<[// s]*？style [^>]*？> [// s // s]*？<[// s]*？// [// s]*？？ //正規表現を定義する{または<style [^>]*？> [// s // s]*？</// stirn string regex_html = "<[^>]+>"; //正規表現p_script = pattern.compile（regex_script、pattern.case_insensitive）を定義する; m_script = p_script.matcher（htmlstr）; htmlstr = m_script.replaceall（ ""）; //フィルタースクリプトタグp_style = pattern.compile（regex_style、pattern.case_insensitive）; m_style = p_style.matcher（htmlstr）; htmlstr = m_style.replaceall（ ""）; //フィルタースクリプトタグp_style = pattern.compile（regex_style、pattern.case_insensitive）; m_style = p_style.matcher（htmlstr）; htmlstr = m_style.replaceall（ ""）; //フィルタースタイルタグp_html = pattern.compile（regex_html、pattern.case_insensitive）; m_html = p_html.matcher（htmlstr）; htmlstr = m_html.replaceall（ ""）; // htmlタグtextStr = htmlstrをフィルターします。 } catch（Exception e）{System.err.println（ "html2Text：" + e.getMessage（））; } //スペースラインtextStr = textStr.Replaceall（ "[]+"、 ""）; textStr = textStr.ReplaceAll（ "（？m）^// s*$（// n | // r // n）"、 ""）; return textstr; // return text string}

4。コード3： htmleditorkit.parsercallbackは、Java自身のクラスです

パッケージcom.util; import java.io。*; import javax.swing.text.html。*; import javax.swing.text.html.parser。 public html2text（）{} public void parse（reader in）throws ioexception {s = new StringBuffer（）; ParserDelegator Delegator = new ParserDeLegator（）; // 3番目のパラメーターは、Charset Direct Delegator.Parse（in、this、boolean.true）を無視するのに当てはまります。 } public void handletext（char [] text、int pos）{s.append（text）; } public string getText（）{return s.toString（）; } public static void main（string [] args）{try {// html to convert // reader in = new StringReader（ "String"）; filereader in = new fileReader（ "Java-new.html"）; html2text parser = new html2text（）; parser.parse（in）; in.close（）; System.out.println（parser.getText（））; } catch（Exception e）{e.printstacktrace（）; }}}

HTMLテキストからプレーンテキストを抽出する上記のJavaの方法は、私があなたと共有するすべてのコンテンツです。参照を提供できることを願っています。wulin.comをもっとサポートできることを願っています。