@@@@@@stid@@@@@sthrok@@@@@@sthrocks@@@@@@@sth
يمكن أن يكون المخلب صعبًا بسبب بعض قضايا الموقع. أيضًا ، يرجى النظر في خيار آخر مثل استخدام الملفات المتاحة للجمهور على مسؤوليتك الخاصة.
على سبيل المثال،
و ، ورقة لجاك باندي ونيكولاس فنسنت هي أيضًا ذات قيمة لفهم كيف تشمل "bookcorpus" وتكرارها العديد من أوجه القصور.
@@@@@@stid@@@@@sthrok@@@@@@sthrocks@@@@@@@sth
هذه هي البرامج النصية لإعادة إنتاج bookcorpus بنفسك.
BookCorpus هي مجموعة نصية شهيرة على نطاق واسع ، من أجل التعلم غير الخاضع للإشراف لمشفرات/فك تشفير الجملة. ومع ذلك ، لم يعد BookCorpus موزعة ...
يتضمن هذا المستودع زاحفًا لجمع البيانات من Smashwords.com ، وهو المصدر الأصلي لـ BookCorpus. قد تختلف الجمل التي تم جمعها جزئيًا ولكن عددها سيكون أكبر أو تقريبًا. إذا كنت تستخدم المجموعة الجديدة في عملك ، فيرجى تحديد أنها نسخة طبق الأصل.
إعداد عناوين URL للكتب المتاحة. ومع ذلك ، فإن هذا المستودع يحتوي بالفعل على قائمة باسم url_list.jsonl الذي كان لقطة I (soskek) التي تم جمعها في 19-20 يناير 2019. يمكنك استخدامها إذا كنت ترغب في ذلك.
python -u download_list.py > url_list.jsonl &
قم بتنزيل ملفاتهم. يتم تنفيذ التنزيل لملفات txt إذا أمكن ذلك. خلاف ذلك ، هذا يحاول استخراج النص من epub . تقوم الوسيطة الإضافية --trash-bad-count بتصفية ملفات epub التي يختلف عدد الكلمات إلى حد كبير عن الإحصائيات الرسمية (لأنها قد تعني بعض الفشل).
python download_files.py --list url_list.jsonl --out out_txts --trash-bad-count
يتم حفظ النتائج في دليل --out (هنا ، out_txts ).
قم بعمل نص متسلسل بتنسيق الجملة لكل خط.
python make_sentlines.py out_txts > all.txt
إذا كنت ترغب في تمييزها في كلمات مجزأة من قبل Microsoft's Blingfire ، فتشغيل أدناه. يمكنك استخدام خيارات أخرى لهذا بنفسك.
python make_sentlines.py out_txts | python tokenize_sentlines.py > all.tokenized.txt
على سبيل المثال ، يمكنك الرجوع إلى شروط Smashwords.com. يرجى استخدام الرمز بمسؤولية والالتزام بحقوق الطبع والنشر والقوانين ذات الصلة. أنا لست مسؤولاً عن أي انتحال أو آثار قانونية ترتفع نتيجة لهذا المستودع.
pip install -r requirements.txt
Failed: epub and txt ، File is not a zip file أو Failed to open . لكن عدد الإخفاقات سيكون أقل بكثير من النجاحات. لا تقلق. تم اشتقاق epub2txt.py من https://github.com/kevinxiong/epub2txt/blob/master/epub2txt.py
إذا وجدت هذا الرمز مفيدًا ، فيرجى الاستشهاد به بعنوان URL.
@misc{soskkobayashi2018bookcorpus,
author = {Sosuke Kobayashi},
title = {Homemade BookCorpus},
howpublished = {url{https://github.com/soskek/bookcorpus}},
year = {2018}
}
أيضا ، الأوراق الأصلية التي جعلت bookcorpus الأصلي هي كما يلي:
Yukun Zhu ، Ryan Kiros ، Richard Zemel ، Ruslan Salakhutdinov ، Raquel Urtasun ، Antonio Torralba ، Sanja Fidler. "محاذاة الكتب والأفلام: نحو تفسيرات بصرية تشبه القصة من خلال مشاهدة الأفلام وقراءة الكتب." Arxiv preprint Arxiv: 1506.06724 ، ICCV 2015.
@InProceedings{Zhu_2015_ICCV,
title = {Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books},
author = {Zhu, Yukun and Kiros, Ryan and Zemel, Rich and Salakhutdinov, Ruslan and Urtasun, Raquel and Torralba, Antonio and Fidler, Sanja},
booktitle = {The IEEE International Conference on Computer Vision (ICCV)},
month = {December},
year = {2015}
}
@inproceedings{moviebook,
title = {Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books},
author = {Yukun Zhu and Ryan Kiros and Richard Zemel and Ruslan Salakhutdinov and Raquel Urtasun and Antonio Torralba and Sanja Fidler},
booktitle = {arXiv preprint arXiv:1506.06724},
year = {2015}
}
ريان كيروس ، ويوكون تشو ، وروسلان سالاخوتدينوف ، وريتشارد س. زيميل ، وأنطونيو توورالبا ، وراكيل أورتاسون ، وسانجا فيدلر. "تخطي ناقلات التفكير." Arxiv preprint Arxiv: 1506.06726 ، NIPS 2015.
@article{kiros2015skip,
title={Skip-Thought Vectors},
author={Kiros, Ryan and Zhu, Yukun and Salakhutdinov, Ruslan and Zemel, Richard S and Torralba, Antonio and Urtasun, Raquel and Fidler, Sanja},
journal={arXiv preprint arXiv:1506.06726},
year={2015}
}