@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
Clawling pode ser difícil devido a algumas questões do site. Além disso, considere outra opção como o uso de arquivos disponíveis ao público por sua conta e risco.
Por exemplo,
E, um artigo de Jack Bandy e Nicholas Vincent também é valioso para entender como "Bookcorpus" e suas réplicas incluem várias deficiências.
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
Estes são scripts para reproduzir o bookcorpus sozinho.
O Bookcorpus é um corpus de texto popular em larga escala, especialmente para aprendizado não supervisionado de codificadores/decodificadores de frases. No entanto, Bookcorpus não está mais distribuído ...
Este repositório inclui um rastreador de coleta de dados do smashwords.com, que é a fonte original de bookcorpus. As sentenças coletadas podem diferir parcialmente, mas o número delas será maior ou quase o mesmo. Se você usar o novo corpus em seu trabalho, especifique que é uma réplica.
Prepare URLs de livros disponíveis. No entanto, esse repositório já possui uma lista como url_list.jsonl , que foi um instantâneo I (@SOSKEK) coletado em 19 a 20 de janeiro de 2019. Você pode usá-lo, se quiser.
python -u download_list.py > url_list.jsonl &
Baixar seus arquivos. O download é executado para arquivos txt , se possível. Caso contrário, isso tenta extrair texto do epub . O argumento adicional --trash-bad-count filtra os arquivos epub cuja contagem de palavras é amplamente diferente de sua estatística oficial (porque pode implicar alguma falha).
python download_files.py --list url_list.jsonl --out out_txts --trash-bad-count
Os resultados são salvos no diretório de --out (aqui, out_txts ).
Faça texto concatenado com formato de frase por linha.
python make_sentlines.py out_txts > all.txt
Se você deseja tokenizá -los em palavras segmentadas pelo Blingfire da Microsoft, execute o abaixo. Você pode usar outras opções para isso sozinho.
python make_sentlines.py out_txts | python tokenize_sentlines.py > all.tokenized.txt
Por exemplo, você pode se referir a termos de smashwords.com. Por favor, use o código com responsabilidade e siga as respectivas direitos autorais e leis relacionadas. Não sou responsável por nenhum plágio ou implicação legal que aumente como resultado desse repositório.
pip install -r requirements.txt
Failed: epub and txt , File is not a zip file ou Failed to open . Mas, o número de falhas será muito menor que um dos sucessos. Não se preocupe. epub2txt.py é derivado e modificado em https://github.com/kevinxiong/epub2txt/blob/master/epub2txt.py
Se você achou esse código útil, cite -o com o URL.
@misc{soskkobayashi2018bookcorpus,
author = {Sosuke Kobayashi},
title = {Homemade BookCorpus},
howpublished = {url{https://github.com/soskek/bookcorpus}},
year = {2018}
}
Além disso, os documentos originais que fizeram o bookcorpus original são os seguintes:
Yukun Zhu, Ryan Kiros, Richard Zemel, Ruslan Salakhutdinov, Raquel Urtasun, Antonio Torralba, Sanja Fidler. "Alinhando livros e filmes: para explicações visuais semelhantes a histórias assistindo filmes e lendo livros". ARXIV ARXIV ARXIV: 1506.06724, ICCV 2015.
@InProceedings{Zhu_2015_ICCV,
title = {Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books},
author = {Zhu, Yukun and Kiros, Ryan and Zemel, Rich and Salakhutdinov, Ruslan and Urtasun, Raquel and Torralba, Antonio and Fidler, Sanja},
booktitle = {The IEEE International Conference on Computer Vision (ICCV)},
month = {December},
year = {2015}
}
@inproceedings{moviebook,
title = {Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books},
author = {Yukun Zhu and Ryan Kiros and Richard Zemel and Ruslan Salakhutdinov and Raquel Urtasun and Antonio Torralba and Sanja Fidler},
booktitle = {arXiv preprint arXiv:1506.06724},
year = {2015}
}
Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun e Sanja Fidler. "Vetores de pule-pensado." Arxiv pré -impressão Arxiv: 1506.06726, NIPS 2015.
@article{kiros2015skip,
title={Skip-Thought Vectors},
author={Kiros, Ryan and Zhu, Yukun and Salakhutdinov, Ruslan and Zemel, Richard S and Torralba, Antonio and Urtasun, Raquel and Fidler, Sanja},
journal={arXiv preprint arXiv:1506.06726},
year={2015}
}