@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@At
Le griffonnage pourrait être difficile en raison de certains problèmes du site Web. Veuillez également considérer une autre option telle que l'utilisation de fichiers accessibles au public à vos propres risques.
Par exemple,
Et, un article de Jack Bandy et Nicholas Vincent est également précieux pour comprendre comment "BookCorpus" et ses répliques incluent plusieurs lacunes.
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@At
Ce sont des scripts pour reproduire BookCorpus par vous-même.
BookCorpus est un corpus de texte à grande échelle populaire, spécialement pour l'apprentissage non supervisé des encodeurs / décodeurs de phrases. Cependant, BookCorpus n'est plus distribué ...
Ce référentiel comprend un Crawler collectant des données de Smashwords.com, qui est la source originale de BookCorpus. Les phrases collectées peuvent différer partiellement, mais le nombre d'entre elles sera plus grande ou presque la même. Si vous utilisez le nouveau corpus dans votre travail, veuillez spécifier qu'il s'agit d'une réplique.
Préparez les URL des livres disponibles. Cependant, ce référentiel a déjà une liste comme url_list.jsonl qui était un instantané I (@soskek) collecté les 19-20 janvier 2019. Vous pouvez l'utiliser si vous le souhaitez.
python -u download_list.py > url_list.jsonl &
Téléchargez leurs fichiers. Le téléchargement est effectué pour les fichiers txt si possible. Sinon, cela essaie d'extraire du texte d' epub . L'argument supplémentaire --trash-bad-count a filmé les fichiers epub dont le nombre de mots est largement différent de sa statistique officielle (car elle peut impliquer un certain échec).
python download_files.py --list url_list.jsonl --out out_txts --trash-bad-count
Les résultats sont enregistrés dans le répertoire de --out (ici, out_txts ).
Faire du texte concaténé avec le format de phrase par ligne.
python make_sentlines.py out_txts > all.txt
Si vous souhaitez les tokeniser en mots segmentés par Blingfire de Microsoft, exécutez ce qui précède. Vous pouvez utiliser un autre choix pour vous-même.
python make_sentlines.py out_txts | python tokenize_sentlines.py > all.tokenized.txt
Par exemple, vous pouvez vous référer aux termes de Smashwords.com. Veuillez utiliser le code de manière responsable et adhérer au droit d'auteur respectif et aux lois connexes. Je ne suis pas responsable de tout plagiat ou implication juridique qui augmente à la suite de ce référentiel.
pip install -r requirements.txt
Failed: epub and txt , File is not a zip file ou Failed to open . Mais, le nombre d'échecs sera bien inférieur à celui des succès. Ne t'inquiète pas. epub2txt.py est dérivé et modifié à partir de https://github.com/kevinxiong/epub2txt/blob/master/epub2txt.py
Si vous avez trouvé ce code utile, veuillez le citer avec l'URL.
@misc{soskkobayashi2018bookcorpus,
author = {Sosuke Kobayashi},
title = {Homemade BookCorpus},
howpublished = {url{https://github.com/soskek/bookcorpus}},
year = {2018}
}
En outre, les articles originaux qui ont fait le BookCorpus original sont les suivants:
Yukun Zhu, Ryan Kiros, Richard Zemel, Ruslan Salakhutdinov, Raquel Urtasun, Antonio Torralba, Sanja Fidler. "Aligner des livres et des films: vers des explications visuelles semblables à des histoires en regardant des films et en lisant des livres." ARXIV Préprint Arxiv: 1506.06724, ICCV 2015.
@InProceedings{Zhu_2015_ICCV,
title = {Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books},
author = {Zhu, Yukun and Kiros, Ryan and Zemel, Rich and Salakhutdinov, Ruslan and Urtasun, Raquel and Torralba, Antonio and Fidler, Sanja},
booktitle = {The IEEE International Conference on Computer Vision (ICCV)},
month = {December},
year = {2015}
}
@inproceedings{moviebook,
title = {Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books},
author = {Yukun Zhu and Ryan Kiros and Richard Zemel and Ruslan Salakhutdinov and Raquel Urtasun and Antonio Torralba and Sanja Fidler},
booktitle = {arXiv preprint arXiv:1506.06724},
year = {2015}
}
Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun et Sanja Fidler. "Vectors de saut pensée." ARXIV Préprint Arxiv: 1506.06726, NIPS 2015.
@article{kiros2015skip,
title={Skip-Thought Vectors},
author={Kiros, Ryan and Zhu, Yukun and Salakhutdinov, Ruslan and Zemel, Richard S and Torralba, Antonio and Urtasun, Raquel and Fidler, Sanja},
journal={arXiv preprint arXiv:1506.06726},
year={2015}
}