@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
La garra podría ser difícil debido a algunos problemas del sitio web. Además, considere otra opción, como el uso de archivos públicos disponibles en su propio riesgo.
Por ejemplo,
Y, un artículo de Jack Bandy y Nicholas Vincent también es valioso para comprender cómo "Bookcorpus" y sus réplicas incluyen varias deficiencias.
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
Estos son guiones para reproducir bookcorpus usted mismo.
BookCorpus es un popular corpus de texto a gran escala, especialmente para el aprendizaje no supervisado de codificadores/decodificadores de oraciones. Sin embargo, BookCorpus ya no se distribuye ...
Este repositorio incluye un rastreador que recopila datos de Smashwords.com, que es la fuente original de BookCorpus. Las oraciones recolectadas pueden diferir parcialmente, pero el número de ellas será más grande o casi igual. Si usa el nuevo corpus en su trabajo, especifique que es una réplica.
Prepare las URL de los libros disponibles. Sin embargo, este repositorio ya tiene una lista como url_list.jsonl , que fue una instantánea que I (@soskek) recopiló del 19 al 20 de enero de 2019. Puede usarla si lo desea.
python -u download_list.py > url_list.jsonl &
Descargar sus archivos. La descarga se realiza para archivos txt si es posible. De lo contrario, esto intenta extraer texto de epub . El argumento adicional: --trash-bad-count filtra archivos epub cuyo recuento de palabras es en gran medida diferente de su estadística oficial (porque puede implicar alguna falla).
python download_files.py --list url_list.jsonl --out out_txts --trash-bad-count
Los resultados se guardan en el directorio de --out (aquí, out_txts ).
Hacer texto concatenado con formato de oración por línea.
python make_sentlines.py out_txts > all.txt
Si desea tokenizarlos en palabras segmentadas por Blingfire de Microsoft, ejecute lo siguiente. Puede usar otras opciones para esto usted mismo.
python make_sentlines.py out_txts | python tokenize_sentlines.py > all.tokenized.txt
Por ejemplo, puede consultar los términos de Smashwords.com. Utilice el código de manera responsable y se adhiera a los derechos de autor respectivos y las leyes relacionadas. No soy responsable de ningún plagio o implicación legal que aumente como resultado de este repositorio.
pip install -r requirements.txt
Failed: epub and txt , File is not a zip file o Failed to open . Pero, el número de fallas será mucho menor que uno de los éxitos. No te preocupes. epub2txt.py se deriva y modifica de https://github.com/Kevinxiong/epub2txt/blob/master/epub2txt.py
Si encontró este código útil, cíquelo con la URL.
@misc{soskkobayashi2018bookcorpus,
author = {Sosuke Kobayashi},
title = {Homemade BookCorpus},
howpublished = {url{https://github.com/soskek/bookcorpus}},
year = {2018}
}
Además, los documentos originales que hicieron el bookcorpus original son los siguientes:
Yukun Zhu, Ryan Kiros, Richard Zemel, Ruslan Salakhutdinov, Raquel Urtasun, Antonio Torralba, Sanja Fidler. "Alineando libros y películas: hacia explicaciones visuales similares a la historia viendo películas y leyendo libros". ARXIV Preprint ARXIV: 1506.06724, ICCV 2015.
@InProceedings{Zhu_2015_ICCV,
title = {Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books},
author = {Zhu, Yukun and Kiros, Ryan and Zemel, Rich and Salakhutdinov, Ruslan and Urtasun, Raquel and Torralba, Antonio and Fidler, Sanja},
booktitle = {The IEEE International Conference on Computer Vision (ICCV)},
month = {December},
year = {2015}
}
@inproceedings{moviebook,
title = {Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books},
author = {Yukun Zhu and Ryan Kiros and Richard Zemel and Ruslan Salakhutdinov and Raquel Urtasun and Antonio Torralba and Sanja Fidler},
booktitle = {arXiv preprint arXiv:1506.06724},
year = {2015}
}
Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun y Sanja Fidler. "Vectores de pensamiento de salto". ARXIV Preprint ARXIV: 1506.06726, NIPS 2015.
@article{kiros2015skip,
title={Skip-Thought Vectors},
author={Kiros, Ryan and Zhu, Yukun and Salakhutdinov, Ruslan and Zemel, Richard S and Torralba, Antonio and Urtasun, Raquel and Fidler, Sanja},
journal={arXiv preprint arXiv:1506.06726},
year={2015}
}