ชุดข้อมูลข้อความรูปภาพ (WIT) ที่ใช้ Wikipedia เป็นชุดข้อมูล หลายภาษาหลายภาษา WIT ประกอบด้วยชุดตัวอย่างข้อความที่เต็มไปด้วยภาพรวม 37.6 ล้านชุดที่มีภาพที่ไม่ซ้ำกัน 11.5 ล้านภาพใน 108 ภาษาวิกิพีเดีย ขนาดของมันช่วยให้ Wit สามารถใช้เป็นชุดข้อมูลก่อนการเรียนรู้สำหรับแบบจำลองการเรียนรู้ของเครื่องหลายรูปแบบ
ข้อดีที่เป็นเอกลักษณ์ของปัญญา:
คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับชุดข้อมูล WIT จากกระดาษ Arxiv ของเรา
2021 เมษายน: มีความสุขที่ได้แบ่งปันข่าวดีที่กระดาษของเราได้รับการยอมรับในการประชุม Sigir จากเว็บไซต์ ACM คุณสามารถค้นหากระดาษสไลด์และการนำเสนอของเราได้
2021 กันยายน: การแข่งขันข้อความภาพด้วยภาพอยู่บน Kaggle ผู้ทำงานร่วมกันของเราจาก Wikimedia Research บล็อกเกี่ยวกับเรื่องนี้และพวกเขาได้จัดทำพิกเซลดิบและ resnet50 Embeddings สำหรับภาพในชุดนี้ นี่คือโพสต์บล็อก Google AI ของเรา
2022 เมษายน: เรายินดีที่จะแบ่งปันว่า Wit Paper and DataSet ได้รับ รางวัลการวิจัยของมูลนิธิ Wikimedia Foundation แห่งปี (ทวีต 1, ทวีต 2) เรารู้สึกเป็นเกียรติอย่างยิ่งและขอบคุณสำหรับการยอมรับ
2022 พฤษภาคม: เราได้เปิดตัวชุดการตรวจสอบ WIT และชุดทดสอบ โปรดดูหน้าข้อมูลสำหรับลิงก์ดาวน์โหลด
2022 ต.ค. : เครื่องมือการเขียนสำหรับข้อเสนอเนื้อหามัลติมีเดียที่ได้รับการยอมรับที่ TREC 2023
2023 เม.ย. : Atomic ยอมรับที่ Sigir 2023
2023 เม.ย. : ชุดข้อมูล Wikiweb2m ที่ปล่อยออกมา
2023 พฤษภาคม: ผลงานที่ยอมรับได้ที่ Wikiworkshop 2023
ตัวอย่างเช่นลองใช้หน้า Wikipedia สำหรับ Half Dome, Yosemite ในแคลิฟอร์เนีย

จากหน้า Wikipedia สำหรับ Half Dome: ภาพถ่ายโดย David Iliff ใบอนุญาต: CC BY-SA 3.0
จากหน้านี้เราเน้นข้อมูลสำคัญต่าง ๆ ของข้อมูลที่เราสามารถแยก - รูปภาพตัวอย่างข้อความที่เกี่ยวข้องและข้อมูลเมตาบริบทบางอย่าง

โดยการแยกและกรองสิ่งเหล่านี้อย่างระมัดระวังเราจะได้รับตัวอย่างข้อความภาพที่สะอาดและมีคุณภาพสูงที่สามารถใช้ในการสร้างแบบจำลองหลายรูปแบบ
แบบจำลอง visio-linguistic หลายรูปแบบขึ้นอยู่กับชุดข้อมูลที่หลากหลายเพื่อช่วยให้พวกเขาเรียนรู้ที่จะสร้างแบบจำลองความสัมพันธ์ระหว่างรูปภาพและข้อความ การมีชุดข้อมูลข้อความภาพขนาดใหญ่สามารถปรับปรุงประสิทธิภาพได้อย่างมีนัยสำคัญดังที่แสดงโดยงานล่าสุด นอกจากนี้การขาดความครอบคลุมทางภาษาในชุดข้อมูลที่มีอยู่ (ซึ่งส่วนใหญ่เป็นภาษาอังกฤษเท่านั้น) ยังขัดขวางการวิจัยในพื้นที่หลายภาษาหลายภาษา-เราพิจารณาว่านี่เป็นโอกาสที่หายไปเนื่องจากศักยภาพที่แสดงในภาพการใช้ประโยชน์
เพื่อจัดการกับความท้าทายเหล่านี้และการวิจัยขั้นสูงเกี่ยวกับการเรียนรู้หลายภาษาหลายภาษาเราได้สร้างชุดข้อมูลภาพข้อความ (WIKIPEDIA ที่ใช้ Wikipedia (WIT) WIT ถูกสร้างขึ้นโดยการแยกข้อความต่าง ๆ หลายรายการที่เกี่ยวข้องกับภาพ (เช่นดังแสดงในภาพด้านบน) จากบทความ Wikipedia และลิงก์ภาพ Wikimedia สิ่งนี้มาพร้อมกับการกรองอย่างเข้มงวดเพื่อรักษาชุดข้อความภาพคุณภาพสูงเท่านั้น
ชุดข้อมูลที่ได้มีชุดข้อความข้อความภาพมากกว่า 37.6 ล้านชุด-ทำให้ Wit เป็นชุดข้อมูลหลายรูปแบบที่ใหญ่ที่สุด (เปิดเผยต่อสาธารณะในขณะที่เขียนนี้) ด้วยการครอบคลุมหลายภาษาที่ไม่มีใครเทียบ-พร้อมตัวอย่าง 12K+ ในแต่ละภาษา 108 ภาษา (53 ภาษามีคู่ข้อความ 100K+
| พิมพ์ | รถไฟ | วาล์ว | ทดสอบ | ทั้งหมด / ไม่ซ้ำกัน |
|---|---|---|---|---|
| แถว / tuples | 37.13m | 261.8K | 210.7k | 37.6m |
| ภาพที่ไม่ซ้ำกัน | 11.4m | 58K | 57K | 11.5m |
| อ้างอิง ข้อความ | 16.9m | 150k | 104K | 17.2m / 16.7m |
| attr. ข้อความ | 34.8m | 193K | 200k | 35.2m / 10.9m |
| ข้อความ alt | 5.3m | 29K | 29K | 5.4m / 5.3m |
| ข้อความบริบท | - | - | - | 119.8m |
| ข้อความภาพ | # lang | Uniq ภาพ | # lang |
|---|---|---|---|
| ทั้งหมด> 1m | 9 | รูปภาพ> 1m | 6 |
| ทั้งหมด> 500K | 10 | รูปภาพ> 500K | 12 |
| ทั้งหมด> 100k | 36 | รูปภาพ> 100k | 35 |
| ทั้งหมด> 50K | 15 | รูปภาพ> 50K | 17 |
| ทั้งหมด> 14K | 38 | รูปภาพ> 13K | 38 |
เราเชื่อว่าชุดข้อมูลที่หลากหลายที่ทรงพลังจะช่วยนักวิจัยในการสร้างแบบจำลองหลายภาษาที่ดีขึ้นหลายรูปแบบและในการระบุเทคนิคการเรียนรู้และการเป็นตัวแทนที่ดีขึ้นซึ่งนำไปสู่การปรับปรุงรูปแบบการเรียนรู้ของเครื่องในงานจริงผ่านข้อมูล Visio-Linguistic
ชุดข้อมูล WIT พร้อมให้ดาวน์โหลดแล้ว โปรดตรวจสอบหน้าข้อมูล
หากคุณใช้ชุดข้อมูล WIT คุณสามารถอ้างอิงงานของเราได้ดังนี้
@inproceedings{10.1145/3404835.3463257,
author = {Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
title = {WIT: Wikipedia-Based Image Text Dataset for Multimodal Multilingual Machine Learning},
year = {2021},
isbn = {9781450380379},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
url = {https://doi.org/10.1145/3404835.3463257},
doi = {10.1145/3404835.3463257},
booktitle = {Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval},
pages = {2443–2449},
numpages = {7},
keywords = {dataset, multimodal, machine learning, wikipedia, multilingual, image-text retrieval, neural networks},
location = {Virtual Event, Canada},
series = {SIGIR '21}
}
ข้อมูลนี้มีอยู่ภายใต้ใบอนุญาตที่ไม่ได้ใช้งาน Creative Commons-Shareike 3.0
สำหรับข้อมูลเกี่ยวกับจิตรกรรมฝาผนัง (หลายรูปแบบการดึงมัลติทาสก์ข้ามภาษา) กระดาษที่ได้รับการยอมรับที่ EMNLP 2021
สำหรับคำถามใด ๆ กรุณาติดต่อ [email protected] สำหรับคำถามใด ๆ กับผู้เขียนคนแรก Krishna โปรดเข้าถึงผ่านหน้าส่วนตัวของพวกเขา Krishna2.com สำหรับการติดต่อ Informaiton
หากชุดข้อมูล WIT มีประโยชน์สำหรับคุณโปรดเขียนถึงเราเกี่ยวกับเรื่องนี้ ไม่ว่าจะเป็นการโพสต์บล็อกโครงการวิจัยหรือกระดาษเรามีความยินดีที่ได้เรียนรู้เกี่ยวกับมัน