@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@S@@@@@@@@@@@@@@@@@@@@@
Clawling bisa jadi sulit karena beberapa masalah situs web. Juga, pertimbangkan opsi lain seperti menggunakan file yang tersedia untuk umum dengan risiko Anda sendiri.
Misalnya,
Dan, sebuah makalah oleh Jack Bandy dan Nicholas Vincent juga berharga untuk memahami bagaimana "BookCorpus" dan ulangannya mencakup beberapa kekurangan.
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@S@@@@@@@@@@@@@@@@@@@@@
Ini adalah skrip untuk mereproduksi BookCorpus sendiri.
BookCorpus adalah korpus teks skala besar yang populer, terutama untuk pembelajaran penginisi/decoder kalimat yang tidak diawasi. Namun, BookCorpus tidak lagi didistribusikan ...
Repositori ini mencakup data pengumpulan crawler dari Smashwords.com, yang merupakan sumber asli BookCorpus. Kalimat yang dikumpulkan mungkin sebagian berbeda tetapi jumlahnya akan lebih besar atau hampir sama. Jika Anda menggunakan corpus baru dalam pekerjaan Anda, harap tentukan bahwa itu adalah replika.
Siapkan URL buku yang tersedia. Namun, repositori ini sudah memiliki daftar sebagai url_list.jsonl yang merupakan snapshot I (@soskek) yang dikumpulkan pada 19-20 Januari 2019. Anda dapat menggunakannya jika Anda mau.
python -u download_list.py > url_list.jsonl &
Unduh file mereka. Mengunduh dilakukan untuk file txt jika memungkinkan. Kalau tidak, ini mencoba mengekstrak teks dari epub . Argumen tambahan --trash-bad-count memfilter file epub yang jumlah kata yang sebagian besar berbeda dari stat resminya (karena mungkin menyiratkan beberapa kegagalan).
python download_files.py --list url_list.jsonl --out out_txts --trash-bad-count
Hasilnya disimpan ke dalam direktori --out (di sini, out_txts ).
Buat teks gabungan dengan format kalimat-per-garis.
python make_sentlines.py out_txts > all.txt
Jika Anda ingin tokenize menjadi kata -kata tersegmentasi oleh Blingfire Microsoft, jalankan di bawah ini. Anda dapat menggunakan pilihan lain untuk ini sendiri.
python make_sentlines.py out_txts | python tokenize_sentlines.py > all.tokenized.txt
Misalnya, Anda dapat merujuk pada istilah Smashwords.com. Harap gunakan kode secara bertanggung jawab dan mematuhi hak cipta dan hukum terkait masing -masing. Saya tidak bertanggung jawab atas plagiarisme atau implikasi hukum yang meningkat sebagai akibat dari repositori ini.
pip install -r requirements.txt
Failed: epub and txt , File is not a zip file atau Failed to open . Tapi, jumlah kegagalan akan jauh lebih sedikit dari satu keberhasilan. Jangan khawatir. epub2txt.py diturunkan dan dimodifikasi dari https://github.com/kevinxiong/epub2txt/blob/master/epub2txt.py
Jika Anda menemukan kode ini berguna, silakan kutip dengan URL.
@misc{soskkobayashi2018bookcorpus,
author = {Sosuke Kobayashi},
title = {Homemade BookCorpus},
howpublished = {url{https://github.com/soskek/bookcorpus}},
year = {2018}
}
Juga, makalah asli yang membuat BookCorpus asli adalah sebagai berikut:
Yukun Zhu, Ryan Kiros, Richard Zemel, Ruslan Salakhutdinov, Raquel Urtasun, Antonio Torralba, Sanja Fidler. "Menyelaraskan buku dan film: Menuju penjelasan visual seperti cerita dengan menonton film dan membaca buku." ARXIV Preprint ARXIV: 1506.06724, ICCV 2015.
@InProceedings{Zhu_2015_ICCV,
title = {Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books},
author = {Zhu, Yukun and Kiros, Ryan and Zemel, Rich and Salakhutdinov, Ruslan and Urtasun, Raquel and Torralba, Antonio and Fidler, Sanja},
booktitle = {The IEEE International Conference on Computer Vision (ICCV)},
month = {December},
year = {2015}
}
@inproceedings{moviebook,
title = {Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books},
author = {Yukun Zhu and Ryan Kiros and Richard Zemel and Ruslan Salakhutdinov and Raquel Urtasun and Antonio Torralba and Sanja Fidler},
booktitle = {arXiv preprint arXiv:1506.06724},
year = {2015}
}
Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun, dan Sanja Fidler. "Vektor Skip-berpikir." ARXIV Preprint ARXIV: 1506.06726, NIPS 2015.
@article{kiros2015skip,
title={Skip-Thought Vectors},
author={Kiros, Ryan and Zhu, Yukun and Salakhutdinov, Ruslan and Zemel, Richard S and Torralba, Antonio and Urtasun, Raquel and Fidler, Sanja},
journal={arXiv preprint arXiv:1506.06726},
year={2015}
}