Java реализует метод извлечения простого текста из HTML -текста

Автор：Eve Cole Время обновления：2025-08-25 23:48:01

1. Сценарий приложения: извлечь простой текст из HTML -файла или из строки (который является HTML Content) и удалите теги веб -страницы;

2. Код 1: заменяем

 // Извлечение простого текста из HTML Public Static String Stripht (String strhtml) {String txtContent = strhtml.replaceall ("</? [^>]+>", ""); // Извлечение <html> Tag txtcontent = txtcontent.replaceall ("<a> // s*|/t |/r |/n </a>", ""); // Удалить пространства в строке, возврат кареты, разрывы строк, вкладка return txtcontent; }

3. Код 2: Регулярные выражения завершены

 // Извлечение простого текста из HTML Public Static String HTML2Text (String InputString) {String htmlstr = inputString; // строка строки с html Tag String Textstr = ""; java.util.regex.pattern p_script; java.util.regex.matcher m_script; java.util.regex.pattern P_STYL p_html; java.util.regex.matcher m_style; java.util.regex.pattern p_html; java.util.regex.matcher m_html; try {string regex_script = "<[// s]*? Script [^>]*?> [// s // s]*? <[// s]*? // [// s]*? // [// s]*? Script [// s]*?>"; // Определите регулярное выражение {или <script [^>]*?> [// s // s]*? // Определите регулярное выражение {или <style [^>]*?> [// s // s]*? </// style> string regex_html = "<[^>]+>"; // Определите регулярное выражение p_script = pattern.compile (regex_script, pattern.case_insensity); m_script = p_script.matcher (htmlstr); htmlstr = m_script.replaceall (""); // Фильтруя сценарий тег p_style = pattern.compile (regex_style, pattern.case_insensity); m_style = p_style.matcher (htmlstr); htmlstr = m_style.replaceall (""); // Фильтруя сценарий тег p_style = pattern.compile (regex_style, pattern.case_insensity); m_style = p_style.matcher (htmlstr); htmlstr = m_style.replaceall (""); // Фильтр стиль тег p_html = pattern.compile (regex_html, pattern.case_insensity); m_html = p_html.matcher (htmlstr); htmlstr = m_html.replaceall (""); // Фильтр html Tag Textstr = htmlstr; } catch (Exception e) {System.err.println ("html2text:" + e.getmessage ()); } // исключать космические линии textstr = textstr.replaceall ("[]+", ""); textstr = textstr.replaceall ("(? M)^// s*$ (// n | // r // n)", ""); вернуть текстовые тексты; // return text string}

4. Код 3: htmleditorkit.parsercallback готов, собственный класс Java

 пакет com.util; импортировать java.io.*; import javax.swing.text.html.*; import javax.swing.text.html.parser.*; открытый класс html2text extends htmleditorkit.parsercallback {stringbuffer s; public html2text () {} public void parse (читатель в) бросает ioException {s = new StringBuffer (); Parserdelegator delegator = new Parserdelegator (); // Третий параметр верен, чтобы игнорировать charset direct delegator.parse (in, это, boolean.true); } public void handletext (char [] text, int pos) {s.append (text); } public String getText () {return s.toString (); } public static void main (string [] args) {try {// html для преобразования // reader in = new StringReader ("string"); FileReader in = new FileReader ("java-new.html"); Html2text parser = new html2text (); parser.parse (in); in.close (); System.out.println (parser.getText ()); } catch (Exception e) {e.printstackTrace (); }}}

Приведенный выше метод Java для извлечения простого текста из HTML -текста - это все контент, которым я делюсь с вами. Я надеюсь, что вы можете дать вам ссылку, и я надеюсь, что вы сможете поддержать Wulin.com больше.