Descargue la novela en el sitio web https://www.po18.tw como un documento txt.
No se puede acceder a este sitio web en China continental y se debe utilizar un proxy.
Solo obtenga contenido de capítulo gratuito/comprado. Compre primero el capítulo pagado manualmente.
Entorno de desarrollo: Python 3.7
Consulte la demostración reference.py descarga de novela PO18 (Python 2.7).
Beautifulsoup
Solicitudes
lxml
Primero encuentre la ID del libro (la cadena de números después de URL /books/ ) y asigna a book_number .
Encuentre el número total de contenido del capítulo (ver [cuatro dígitos] en el capítulo anterior en el último capítulo del directorio, o ver desde狀態未完結(目前xxx章回) ) y asignarlo a chapter_sum .
Solo puede acceder a la página novedosa después de iniciar sesión y asignar account y pwd en login() como información real de su cuenta (esta información existe localmente y solo se enviará al servidor PO18 para iniciar sesión).
Cambiar txt = open('路径' + book_number + '.txt', 'a') , encontrar una ruta de carpeta y reemplazar los caracteres chinos.
login() -> data{} 'El client_ip se reemplaza con su propia IP nativa (cómo verificar la IP, no me pregunte). Si usa este script con moderación, el servidor del sitio web no responderá a IP a las que se accede con demasiada frecuencia.
Si el sitio web informa un error, encuentre la última salida de línea de comando xx https://www.po18.tw/books/---/articles/----- processing... , asigne el número xx para start .
Aquí generalmente necesita modificar los parámetros page en getContent(page) y calcularlo usted mismo.
Rerun y la descarga continuarán. (Esta publicación puede repetirse varias veces)