ดาวน์โหลด wikipedia2vec - wikipedia2vec ซอร์สโค้ดดาวน์โหลดดาวน์โหลด

wikipedia2vec

ซอร์สโค้ดอื่น ๆ

v2.0.0

ดาวน์โหลด

Wikipedia2vec

การทดสอบ

Wikipedia2vec เป็นเครื่องมือที่ใช้ในการรับ embeddings (หรือการแสดงเวกเตอร์) ของคำและเอนทิตี (เช่นแนวคิดที่มีหน้าเว็บที่สอดคล้องกันในวิกิพีเดีย) จากวิกิพีเดีย มันได้รับการพัฒนาและดูแลโดย Studio Ousia

เครื่องมือนี้ช่วยให้คุณสามารถเรียนรู้การฝังคำและเอนทิตีพร้อมกันและวางคำและเอนทิตีที่คล้ายกันใกล้กันในพื้นที่เวกเตอร์ต่อเนื่อง Embeddings สามารถฝึกได้อย่างง่ายดายด้วยคำสั่งเดียวที่มีการถ่ายโอนข้อมูลวิกิพีเดียที่เปิดเผยต่อสาธารณะเป็นอินพุต

เครื่องมือนี้ใช้โมเดล Skip-Gram ทั่วไปเพื่อเรียนรู้การฝังคำและส่วนขยายที่เสนอใน Yamada และคณะ (2016) เพื่อเรียนรู้การฝังตัวของหน่วยงาน

การเปรียบเทียบเชิงประจักษ์ระหว่าง Wikipedia2vec และเครื่องมือฝังที่มีอยู่ (เช่น fasttext, gensim, rdf2vec และ wiki2vec) มีให้ที่นี่

เอกสารมีให้ออนไลน์ที่ http://wikipedia2vec.github.io/

การใช้งานขั้นพื้นฐาน

Wikipedia2vec สามารถติดตั้งผ่าน PYPI:

% pip install wikipedia2vec

ด้วยเครื่องมือนี้การฝังตัวสามารถเรียนรู้ได้โดยใช้คำสั่ง รถไฟ ด้วยการถ่ายโอนข้อมูลวิกิพีเดียเป็นอินพุต ตัวอย่างเช่นคำสั่งต่อไปนี้ดาวน์โหลดการถ่ายโอนข้อมูลวิกิพีเดียภาษาอังกฤษล่าสุดและเรียนรู้การฝังตัวจากการถ่ายโอนข้อมูลนี้:

% wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2
% wikipedia2vec train enwiki-latest-pages-articles.xml.bz2 MODEL_FILE

จากนั้นการฝังตัวที่เรียนรู้จะถูกเขียนไปยัง model_file โปรดทราบว่าคำสั่งนี้สามารถใช้พารามิเตอร์ทางเลือกมากมาย โปรดดูเอกสารของเราสำหรับรายละเอียดเพิ่มเติม

ฝังตัว

embeddings pretrained สำหรับ 12 ภาษา (เช่นอังกฤษ, อาหรับ, จีน, ดัตช์, ฝรั่งเศส, เยอรมัน, อิตาลี, ญี่ปุ่น, โปแลนด์, โปรตุเกส, รัสเซียและสเปน) สามารถดาวน์โหลดได้จากหน้านี้

ใช้เคส

Wikipedia2vec ถูกนำไปใช้กับงานต่อไปนี้:

การเชื่อมโยงเอนทิตี: Yamada et al., 2016, Eshel et al., 2017, Chen et al., 2019, Poerner et al., 2020, Van Hulst et al., 2020
การรับรู้เอนทิตีชื่อ: Sato et al., 2017, Lara-Clares และ Garcia-Serrano, 2019
การตอบคำถาม: Yamada et al., 2017, Poerner et al., 2020
การพิมพ์เอนทิตี: Yamada et al., 2018
การจำแนกประเภทข้อความ: Yamada et al., 2018, Yamada และ Shindo, 2019, Alam et al., 2020
การจำแนกประเภทความสัมพันธ์: Poerner et al., 2020
การตรวจจับการถอดความ: Duong et al., 2018
กราฟความรู้เสร็จสมบูรณ์: Shah et al., 2019, Shah et al., 2020
การตรวจจับข่าวปลอม: Singh et al., 2019, Ghosal et al., 2020
การวิเคราะห์พล็อตของภาพยนตร์: Papalampidi et al., 2019
การค้นพบเอนทิตีนวนิยาย: Zhang et al., 2020
การค้นคืนเอนทิตี: Gerritse et al., 2020
การตรวจจับ Deepfake: Zhong et al., 2020
การค้นหาข้อมูลการสนทนา: Rodriguez et al., 2020
การขยายตัวอย่าง: Rosin et al., 2020

การอ้างอิง

หากคุณใช้ wikipedia2vec ในสิ่งพิมพ์ทางวิทยาศาสตร์โปรดอ้างอิงเอกสารต่อไปนี้:

Ikuya Yamada, Akari Asai, Jin Sakuma, Hiroyuki Shindo, Hideaki Takeda, Yoshiyasu Takefuji, Yuji Matsumoto, Wikipedia2Vec: เครื่องมือที่มีประสิทธิภาพสำหรับการเรียนรู้

 @inproceedings{yamada2020wikipedia2vec,
  title = "{W}ikipedia2{V}ec: An Efficient Toolkit for Learning and Visualizing the Embeddings of Words and Entities from {W}ikipedia",
  author={Yamada, Ikuya and Asai, Akari and Sakuma, Jin and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu and Matsumoto, Yuji},
  booktitle = {Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations},
  year = {2020},
  publisher = {Association for Computational Linguistics},
  pages = {23--30}
}

แบบจำลองการฝังถูกเสนอเดิมในกระดาษต่อไปนี้:

Ikuya Yamada, Hiroyuki Shindo, Hideaki Takeda, Yoshiyasu Takefuji, การเรียนรู้ร่วมกันเกี่ยวกับการฝังคำและเอนทิตีสำหรับนิติบุคคลที่ไม่น่าเชื่อ

 @inproceedings{yamada2016joint,
  title={Joint Learning of the Embedding of Words and Entities for Named Entity Disambiguation},
  author={Yamada, Ikuya and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu},
  booktitle={Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning},
  year={2016},
  publisher={Association for Computational Linguistics},
  pages={250--259}
}

รูปแบบการจำแนกประเภทข้อความที่นำมาใช้ในตัวอย่างนี้ถูกเสนอในบทความต่อไปนี้:

Ikuya Yamada, Hiroyuki Shindo, โมเดลถุงประสาทที่ใส่ใจในระบบประสาทสำหรับการจำแนกประเภทข้อความ

 @article{yamada2019neural,
  title={Neural Attentive Bag-of-Entities Model for Text Classification},
  author={Yamada, Ikuya and Shindo, Hiroyuki},
  booktitle={Proceedings of The 23th SIGNLL Conference on Computational Natural Language Learning},
  year={2019},
  publisher={Association for Computational Linguistics},
  pages = {563--573}
}

ใบอนุญาต

ใบอนุญาต Apache 2.0

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน v2.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-04-18
ขนาด 747.51KB
มาจาก Github

แอปที่เกี่ยวข้อง

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด