Java implementiert eine Methode, um einen einfachen Text aus dem HTML -Text zu extrahieren

Autor：Eve Cole Aktualisierungszeit：2025-08-25 23:48:01

1. Anwendungsszenario: Extrahieren Sie einen einfachen Text aus einer HTML -Datei oder aus der String (bei der der HTML -Inhalt entfernen) und entfernen Sie Webseiten -Tags.

2. Code 1: AustauschaAll erfolgt

 // Klartext aus HTML public static String StripHt (String strhtml) {String txtContent = strhtml.replaceAll ("</? [^>]+>", ""); // extrahieren Sie die <html> tag txtContent = txtContent.replaceAll ("<a> // s*|/t |/r |/n </a>", ""); // Leerzeichen in der Zeichenfolge, Wagenrückgabe, Zeilenumbrüche, Registerkarte Return txtContent; }

3. Code 2: Regelmäßige Ausdrücke werden abgeschlossen

 // Klartext aus HTML public static String html2Text (String InputString) {String htmlstr = inputString; // String String mit html Tag String textstr = ""; java.util.regex.pattern p_script; java.util.regex.matcher m_script; java.util.regex.pattern p_style; P_HTML; "<[// s]*? script [^>]*?> [// s // s]*? <[// s]*? // [// s]*? // [// s]*script [// s]*?>"; // Definieren Sie den regulären Ausdruck {oder <script [^>]*?> [// s // s]*? // Definieren Sie den regulären Ausdruck {oder <style [^>]*?> [// s // s]*? </// style> String regex_html = "<[^>]+>"; // Definieren Sie den regulären Ausdruck p_script = muster.comPile (regex_script, muster.case_inemsitiv); m_script = p_script.matcher (htmlstr); htmlstr = m_script.replaceall (""); // Filterskript Tag p_style = muster.comPile (regex_style, muster.case_inemsitiv); m_style = p_style.matcher (htmlstr); htmlstr = m_style.replaceall (""); // Filterskript Tag p_style = muster.comPile (regex_style, muster.case_inemsitiv); m_style = p_style.matcher (htmlstr); htmlstr = m_style.replaceall (""); // Filterstil Tag p_html = muster.comPile (regex_html, muster.case_inemsitiv); m_html = p_html.matcher (htmlstr); htmlstr = m_html.replaceall (""); // Filter html Tag textstr = htmlstr; } catch (Ausnahme e) {System.err.println ("html2Text:" + e.getMessage ()); } // Space Lines ausschließen textstr = textstr.replaceall ("[]+", ""); textstr.

4. Code 3: htmleditorkit.ParSercallback ist fertig, Javas eigene Klasse

 Paket com.util; import java.io.*; import javax.swing.text.html. public html2Text () {} public void parse (reader in) löscht ioException {s = new StringBuffer (); ParserDelegator -Delegator = neuer ParserDelegator (); // Der dritte Parameter ignoriert charset Direct -Delegator.Parse (in this, boolean.true); } public void HandletExt (char [] text, int pos) {S.Append (text); } public String getText () {return s.toString (); } public static void main (String [] args) {try {// Die HTML -zu konvertieren // reader in = new StringReader ("String"); FileReader in = new fileReader ("java-new.html"); Html2Text parser = new html2Text (); Parser.Parse (in); in.close (); System.out.println (parser.getText ()); } catch (Ausnahme e) {e.printstacktrace (); }}}

Die obige Methode von Java zum Extrahieren eines einfachen Textes aus dem HTML -Text ist der gesamte Inhalt, den ich mit Ihnen teile. Ich hoffe, Sie können Ihnen eine Referenz geben und ich hoffe, Sie können wulin.com mehr unterstützen.