@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
Котлет может быть трудным из -за некоторых проблем веб -сайта. Также, пожалуйста, рассмотрите еще один вариант, такой как использование общедоступных файлов на ваш собственный риск.
Например,
И статья Джека Банди и Николаса Винсента также полезна для понимания того, как «BookCorpus» и его копии включают несколько недостатков.
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
Это сценарии, чтобы самостоятельно воспроизводить BookCorpus.
BookCorpus-это популярный крупномасштабный текстовый корпус, особенно для неконтролируемого изучения кодеров/декодеров предложений. Тем не менее, BookCorpus больше не распространяется ...
Этот репозиторий включает в себя хлисто, собирая данные с SmashWords.com, который является первоначальным источником BookCorpus. Собранные предложения могут частично отличаться , но их число будет больше или почти одинаково. Если вы используете новый корпус в своей работе, укажите, что это копия.
Подготовьте URL -адреса доступных книг. Тем не менее, этот репозиторий уже имеет список в качестве url_list.jsonl , который был снимком, который я (@soskek) был собран 19-20 января 2019 года. Вы можете использовать его, если хотите.
python -u download_list.py > url_list.jsonl &
Загрузите их файлы. Загрузка выполняется для файлов txt , если это возможно. В противном случае это пытается извлечь текст из epub . Дополнительный аргумент --trash-bad-count -отфильтры из файлов epub , количество слов, в значительной степени отличается от его официальной статистики (потому что это может означать некоторый сбой).
python download_files.py --list url_list.jsonl --out out_txts --trash-bad-count
Результаты сохраняются в каталоге --out (здесь, out_txts ).
Сделайте объединенный текст с форматом предложения на линию.
python make_sentlines.py out_txts > all.txt
Если вы хотите токенизировать их на сегментированные слова Microsoft Blingfire, запустите ниже. Вы можете использовать другой выбор для этого самостоятельно.
python make_sentlines.py out_txts | python tokenize_sentlines.py > all.tokenized.txt
Например, вы можете ссылаться на термины smashwords.com. Пожалуйста, используйте Кодекс ответственно и придерживайтесь соответствующих авторских прав и соответствующих законов. Я не отвечаю за какое -либо плагиат или юридическое значение, которое поднимается в результате этого репозитория.
pip install -r requirements.txt
Failed: epub and txt , File is not a zip file или Failed to open . Но количество неудач будет намного меньше, чем у успеха. Не волнуйся. epub2txt.py получен и модифицируется с https://github.com/kevinxiong/epub2txt/blob/master/epub2txt.py
Если вы нашли этот код полезным, пожалуйста, укажите его с URL.
@misc{soskkobayashi2018bookcorpus,
author = {Sosuke Kobayashi},
title = {Homemade BookCorpus},
howpublished = {url{https://github.com/soskek/bookcorpus}},
year = {2018}
}
Кроме того, оригинальные бумаги, которые сделали оригинальный BookCorpus, заключаются в следующем:
Юкун Чжу, Райан Кирос, Ричард Земель, Руслан Салахутдинов, Ракель Уртасун, Антонио Торралба, Санджа Фидлер. «Выравнивание книг и фильмов: к истории, подобным сюжету, визуальные объяснения, просмотрев фильмы и чтение книг». ARXIV PREPRINT ARXIV: 1506.06724, ICCV 2015.
@InProceedings{Zhu_2015_ICCV,
title = {Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books},
author = {Zhu, Yukun and Kiros, Ryan and Zemel, Rich and Salakhutdinov, Ruslan and Urtasun, Raquel and Torralba, Antonio and Fidler, Sanja},
booktitle = {The IEEE International Conference on Computer Vision (ICCV)},
month = {December},
year = {2015}
}
@inproceedings{moviebook,
title = {Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books},
author = {Yukun Zhu and Ryan Kiros and Richard Zemel and Ruslan Salakhutdinov and Raquel Urtasun and Antonio Torralba and Sanja Fidler},
booktitle = {arXiv preprint arXiv:1506.06724},
year = {2015}
}
Райан Кирос, Юкун Чжу, Руслан Салахутдинов, Ричард С. Земель, Антонио Торралба, Ракель Уртасун и Санджа Фидлер. «Пропустить векторы». Arxiv Preprint arxiv: 1506.06726, NIPS 2015.
@article{kiros2015skip,
title={Skip-Thought Vectors},
author={Kiros, Ryan and Zhu, Yukun and Salakhutdinov, Ruslan and Zemel, Richard S and Torralba, Antonio and Urtasun, Raquel and Fidler, Sanja},
journal={arXiv preprint arXiv:1506.06726},
year={2015}
}