Sich
Das Kratzen könnte aufgrund einiger Probleme der Website schwierig sein. Betrachten Sie außerdem eine andere Option, z. B. die Verwendung öffentlich verfügbarer Dateien auf eigenes Risiko.
Zum Beispiel,
Und ein Papier von Jack Bandy und Nicholas Vincent ist auch wertvoll, um zu verstehen, wie "bookcorpus" und seine Replikate mehrere Mängel enthalten.
Sich
Dies sind Skripte, um Buchcorpus selbst zu reproduzieren.
Bookcorpus ist ein beliebtes großtemuelles Textkorpus, insbesondere für unbeaufsichtigtes Erlernen von Satzcodierern/Decodern. Bookcorpus ist jedoch nicht mehr verteilt ...
Dieses Repository enthält einen Crawler, der Daten von Smashwords.com sammelt, die die ursprüngliche Quelle für Buchcorpus ist. Gesammelte Sätze können sich teilweise unterscheiden , aber die Anzahl von ihnen ist größer oder fast gleich. Wenn Sie den neuen Korpus in Ihrer Arbeit verwenden, geben Sie bitte an, dass es sich um eine Nachbildung handelt.
Bereiten Sie URLs verfügbarer Bücher vor. Dieses Repository hat jedoch bereits eine Liste als url_list.jsonl , ein Schnappschuss I (@soskek), der am 19. bis 20. Januar 2019 gesammelt wurde. Sie können es verwenden, wenn Sie möchten.
python -u download_list.py > url_list.jsonl &
Laden Sie ihre Dateien herunter. Das Herunterladen erfolgt nach Möglichkeit für txt -Dateien. Ansonsten versucht dies, Text aus epub zu extrahieren. Das zusätzliche Argument --trash-bad-count filtert epub Dateien, deren Wortzahl weitgehend von seinem offiziellen Status unterscheidet (weil es möglicherweise einen Fehler implizieren kann).
python download_files.py --list url_list.jsonl --out out_txts --trash-bad-count
Die Ergebnisse werden in das Verzeichnis von --out (hier, out_txts ) gespeichert.
Machen Sie verketteten Text mit Satz-per-Linie-Format.
python make_sentlines.py out_txts > all.txt
Wenn Sie sie von Microsofts Blingfire in segmentierte Wörter tokenisieren möchten, führen Sie die unten aus. Sie können dafür eine andere Auswahl selbst verwenden.
python make_sentlines.py out_txts | python tokenize_sentlines.py > all.tokenized.txt
Sie können sich beispielsweise auf Smashwords.com beziehen. Bitte verwenden Sie den Code verantwortungsbewusst und halten Sie sich an das jeweilige Urheberrecht und verwandte Gesetze. Ich bin nicht verantwortlich für Plagiate oder rechtliche Implikation, die aufgrund dieses Repositorys steigt.
pip install -r requirements.txt
Failed: epub and txt , File is not a zip file oder Failed to open . Die Anzahl der Fehler wird jedoch viel weniger als einer der Erfolge sein. Mach dir keine Sorge. epub2txt.py wird abgeleitet und modifiziert von https://github.com/kevinxiong/epub2txt/blob/master/epub2txt.py
Wenn Sie diesen Code nützlich gefunden haben, zitieren Sie ihn bitte mit der URL.
@misc{soskkobayashi2018bookcorpus,
author = {Sosuke Kobayashi},
title = {Homemade BookCorpus},
howpublished = {url{https://github.com/soskek/bookcorpus}},
year = {2018}
}
Auch die Originalpapiere, die den Originalbuchcorpus machten, sind wie folgt:
Yukun Zhu, Ryan Kiros, Richard Zemel, Ruslan Salakhutdinov, Raquel Urtasun, Antonio Torralba, Sanja Fidler. "Ausrichtung von Büchern und Filmen: Auf dem Weg zu storyähnlichen visuellen Erklärungen durch Anschauen von Filmen und Lesen von Büchern." Arxiv Preprint Arxiv: 1506.06724, ICCV 2015.
@InProceedings{Zhu_2015_ICCV,
title = {Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books},
author = {Zhu, Yukun and Kiros, Ryan and Zemel, Rich and Salakhutdinov, Ruslan and Urtasun, Raquel and Torralba, Antonio and Fidler, Sanja},
booktitle = {The IEEE International Conference on Computer Vision (ICCV)},
month = {December},
year = {2015}
}
@inproceedings{moviebook,
title = {Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books},
author = {Yukun Zhu and Ryan Kiros and Richard Zemel and Ruslan Salakhutdinov and Raquel Urtasun and Antonio Torralba and Sanja Fidler},
booktitle = {arXiv preprint arXiv:1506.06724},
year = {2015}
}
Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun und Sanja Fidler. "Vektoren überspringen." Arxiv Preprint Arxiv: 1506.06726, NIPS 2015.
@article{kiros2015skip,
title={Skip-Thought Vectors},
author={Kiros, Ryan and Zhu, Yukun and Salakhutdinov, Ruslan and Zemel, Richard S and Torralba, Antonio and Urtasun, Raquel and Fidler, Sanja},
journal={arXiv preprint arXiv:1506.06726},
year={2015}
}