@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
由於網站的某些問題,爪可能很困難。另外,請考慮另一種選擇,例如使用自擔風險的公開文件。
例如,
而且,傑克·班迪(Jack Bandy)和尼古拉斯·文森特(Nicholas Vincent)發表的一篇論文對於理解“ bookcorpus”及其複製品如何包括幾種缺陷也很有價值。
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
這些是獨自複製書庫的腳本。
BookCorpus是一種流行的大規模文本語料庫,特別是用於無監督的句子編碼器/解碼器的學習。但是,BookCorpus不再分發了...
該存儲庫包括一個從smashwords.com那裡收集數據的移植者,該數據是BookCorpus的原始來源。收集的句子可能會有所不同,但其數量會更大或幾乎相同。如果您在工作中使用新語料庫,請指定它是複製品。
準備一些可用書籍。但是,該存儲庫已經在2019年1月19日至20日收集的快照i(@soskek)中有一個url_list.jsonl列表。如果需要,可以使用它。
python -u download_list.py > url_list.jsonl &
下載他們的文件。如果可能的話,將對txt文件執行下載。否則,這將嘗試從epub提取文本。附加的參數--trash-bad-count濾出了epub文件,其單詞計數與其官方統計數據很大不同(因為這可能意味著某些失敗)。
python download_files.py --list url_list.jsonl --out out_txts --trash-bad-count
結果將保存到--out的目錄中(此處為out_txts )。
用每行句子格式製作串聯文本。
python make_sentlines.py out_txts > all.txt
如果您想將它們歸為Microsoft的BlingFire分割單詞,請運行以下。您可以自己使用另一種選擇。
python make_sentlines.py out_txts | python tokenize_sentlines.py > all.tokenized.txt
例如,您可以參考smashwords.com的術語。請負責任地使用該代碼,並遵守各自的版權和相關法律。我對由於該存儲庫而產生的任何竊或法律含義不承擔任何責任。
pip install -r requirements.txt
Failed: epub and txt , File is not a zip file或Failed to open 。但是,失敗的數量將遠小於成功之一。不用擔心。 epub2txt.py是從https://github.com/kevinxiong/epub2txt/blob/master/master/epub2txt.py派生和修改的
如果您發現此代碼有用,請使用URL引用它。
@misc{soskkobayashi2018bookcorpus,
author = {Sosuke Kobayashi},
title = {Homemade BookCorpus},
howpublished = {url{https://github.com/soskek/bookcorpus}},
year = {2018}
}
此外,製作原始書籍的原始論文如下:
Yukun Zhu,Ryan Kiros,Richard Zemel,Ruslan Salakhutdinov,Raquel Urtasun,Antonio Torralba,Sanja Fidler。 “使書籍和電影對齊:通過看電影和閱讀書籍來邁向類似故事的視覺解釋。” ARXIV預印型ARXIV:1506.06724,ICCV 2015。
@InProceedings{Zhu_2015_ICCV,
title = {Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books},
author = {Zhu, Yukun and Kiros, Ryan and Zemel, Rich and Salakhutdinov, Ruslan and Urtasun, Raquel and Torralba, Antonio and Fidler, Sanja},
booktitle = {The IEEE International Conference on Computer Vision (ICCV)},
month = {December},
year = {2015}
}
@inproceedings{moviebook,
title = {Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books},
author = {Yukun Zhu and Ryan Kiros and Richard Zemel and Ruslan Salakhutdinov and Raquel Urtasun and Antonio Torralba and Sanja Fidler},
booktitle = {arXiv preprint arXiv:1506.06724},
year = {2015}
}
Ryan Kiros,Yukun Zhu,Ruslan Salakhutdinov,Richard S. Zemel,Antonio Torralba,Raquel Urtasun和Sanja Fidler。 “跳過經過思考的矢量。” ARXIV預印型ARXIV:1506.06726,NIPS 2015。
@article{kiros2015skip,
title={Skip-Thought Vectors},
author={Kiros, Ryan and Zhu, Yukun and Salakhutdinov, Ruslan and Zemel, Richard S and Torralba, Antonio and Urtasun, Raquel and Fidler, Sanja},
journal={arXiv preprint arXiv:1506.06726},
year={2015}
}