@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
由于网站的某些问题,爪可能很困难。另外,请考虑另一种选择,例如使用自担风险的公开文件。
例如,
而且,杰克·班迪(Jack Bandy)和尼古拉斯·文森特(Nicholas Vincent)发表的一篇论文对于理解“ bookcorpus”及其复制品如何包括几种缺陷也很有价值。
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
这些是独自复制书库的脚本。
BookCorpus是一种流行的大规模文本语料库,特别是用于无监督的句子编码器/解码器的学习。但是,BookCorpus不再分发了...
该存储库包括一个从smashwords.com那里收集数据的移植者,该数据是BookCorpus的原始来源。收集的句子可能会有所不同,但其数量会更大或几乎相同。如果您在工作中使用新语料库,请指定它是复制品。
准备一些可用书籍。但是,该存储库已经在2019年1月19日至20日收集的快照i(@soskek)中有一个url_list.jsonl列表。如果需要,可以使用它。
python -u download_list.py > url_list.jsonl &
下载他们的文件。如果可能的话,将对txt文件执行下载。否则,这将尝试从epub提取文本。附加的参数--trash-bad-count滤出了epub文件,其单词计数与其官方统计数据很大不同(因为这可能意味着某些失败)。
python download_files.py --list url_list.jsonl --out out_txts --trash-bad-count
结果将保存到--out的目录中(此处为out_txts )。
用每行句子格式制作串联文本。
python make_sentlines.py out_txts > all.txt
如果您想将它们归为Microsoft的BlingFire分割单词,请运行以下。您可以自己使用另一种选择。
python make_sentlines.py out_txts | python tokenize_sentlines.py > all.tokenized.txt
例如,您可以参考smashwords.com的术语。请负责任地使用该代码,并遵守各自的版权和相关法律。我对由于该存储库而产生的任何窃或法律含义不承担任何责任。
pip install -r requirements.txt
Failed: epub and txt , File is not a zip file或Failed to open 。但是,失败的数量将远小于成功之一。不用担心。 epub2txt.py是从https://github.com/kevinxiong/epub2txt/blob/master/master/epub2txt.py派生和修改的
如果您发现此代码有用,请使用URL引用它。
@misc{soskkobayashi2018bookcorpus,
author = {Sosuke Kobayashi},
title = {Homemade BookCorpus},
howpublished = {url{https://github.com/soskek/bookcorpus}},
year = {2018}
}
此外,制作原始书籍的原始论文如下:
Yukun Zhu,Ryan Kiros,Richard Zemel,Ruslan Salakhutdinov,Raquel Urtasun,Antonio Torralba,Sanja Fidler。 “使书籍和电影对齐:通过看电影和阅读书籍来迈向类似故事的视觉解释。” ARXIV预印型ARXIV:1506.06724,ICCV 2015。
@InProceedings{Zhu_2015_ICCV,
title = {Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books},
author = {Zhu, Yukun and Kiros, Ryan and Zemel, Rich and Salakhutdinov, Ruslan and Urtasun, Raquel and Torralba, Antonio and Fidler, Sanja},
booktitle = {The IEEE International Conference on Computer Vision (ICCV)},
month = {December},
year = {2015}
}
@inproceedings{moviebook,
title = {Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books},
author = {Yukun Zhu and Ryan Kiros and Richard Zemel and Ruslan Salakhutdinov and Raquel Urtasun and Antonio Torralba and Sanja Fidler},
booktitle = {arXiv preprint arXiv:1506.06724},
year = {2015}
}
Ryan Kiros,Yukun Zhu,Ruslan Salakhutdinov,Richard S. Zemel,Antonio Torralba,Raquel Urtasun和Sanja Fidler。 “跳过经过思考的矢量。” ARXIV预印型ARXIV:1506.06726,NIPS 2015。
@article{kiros2015skip,
title={Skip-Thought Vectors},
author={Kiros, Ryan and Zhu, Yukun and Salakhutdinov, Ruslan and Zemel, Richard S and Torralba, Antonio and Urtasun, Raquel and Fidler, Sanja},
journal={arXiv preprint arXiv:1506.06726},
year={2015}
}