Загрузите роман на веб -сайте https://www.po18.tw в качестве документа TXT.
На этот веб -сайт не может быть доступен в материковом Китае, и должен использоваться прокси.
Получите только бесплатное/купленное содержание главы. Пожалуйста, купите платную главу вручную вручную.
Среда развития: Python 3.7
Обратитесь к демонстрации романа PO18 (Python 2.7 reference.py .
BeautifulSoup
Запросы
LXML
Сначала найдите идентификатор книги (строка чисел после URL /books/ ) и назначьте его на book_number .
Найдите общее количество содержания главы (см. [Четыре цифры] в предыдущей главе в последней главе в каталоге или см. В狀態未完結(目前xxx章回) ), и назначьте его в chapter_sum .
Вы можете получить доступ к новой странице только после входа в систему и назначить account и pwd в login() в качестве информации о реальной учетной записи (эта информация существует локально и будет отправлен на сервер PO18 только для входа в систему).
Измените txt = open('路径' + book_number + '.txt', 'a') , найдите путь папки и замените китайские иероглифы.
login() -> data{} S client_ip заменяется своим собственным собственным IP (как проверить IP, не спрашивайте меня). Если вы используете этот скрипт в модерации, сервер веб -сайтов не будет отвечать на IP, которые доступны слишком часто.
Если на веб-сайте сообщается об ошибке, найдите последнюю командную строку вывод xx https://www.po18.tw/books/---/articles/----- processing... , назначьте номер xx для start .
Здесь обычно нужно изменить параметры page в getContent(page) и вычислить ее самостоятельно.
Повторный перезагрузчик и загрузка будут продолжаться. (Этот пост может повторяться несколько раз)