https://www.po18.tw WebサイトでTXTドキュメントとして小説をダウンロードしてください。
このウェブサイトに中国本土でアクセスすることはできず、プロキシを使用する必要があります。
無料/購入した章のコンテンツのみを取得します。最初に有料の章を手動で購入してください。
開発環境:Python 3.7
PO18 reference.py小説Demo(Python 2.7)を参照してください。
BeautifulSoup
リクエスト
LXML
最初に本ID(url /books/の後の数字の文字列)を見つけて、 book_numberに割り当てます。
ディレクトリの最新章の前の章の[4桁の[4桁]を参照するか、狀態未完結(目前xxx章回)を参照して、 chapter_sumに割り当てます。
ログイン後にのみ小説ページにアクセスし、 accountとpwdをlogin()に割り当てることができます(この情報はローカルに存在し、ログインのためにPO18サーバーにのみ送信されます)。
txt = open('路径' + book_number + '.txt', 'a')変更し、フォルダパスを見つけて、漢字を置き換えます。
login() - > data{}のclient_ip 、独自のネイティブIPに置き換えられます(IPを確認する方法、尋ねないでください)。このスクリプトを適度に使用する場合、Webサイトサーバーはあまりにも頻繁にアクセスされるIPに応答しません。
ウェブサイトがエラーを報告した場合、最後のコマンドライン出力xx https://www.po18.tw/books/---/articles/----- processing...を見つけて、xx startには番号xxを割り当てます。
ここでは、通常、 getContent(page)のpageパラメーターを変更し、自分で計算する必要があります。
再実行され、ダウンロードは継続されます。 (この投稿は数回繰り返される場合があります)