Tim DeepMind Google baru-baru ini merilis dataset Webli-100B, yang berisi 100 miliar pasangan teks gambar, menandai terobosan besar di bidang model bahasa visual kecerdasan buatan. Tujuan inti dari dataset ini adalah untuk secara signifikan meningkatkan kinerja model AI dalam menangani berbagai tugas budaya dan multibahasa melalui sumber daya data yang kaya, sehingga mempromosikan inklusivitas dan keragaman teknologi kecerdasan buatan.

Model Bahasa Visual (VLM) adalah jembatan yang menghubungkan gambar dan teks, dan banyak digunakan dalam tugas -tugas seperti pembuatan subtitle gambar, pertanyaan visual dan jawaban. Kinerja model -model ini sangat tergantung pada kualitas dan jumlah data pelatihan. Di masa lalu, para peneliti telah mengandalkan dataset besar seperti keterangan konseptual dan Laion. tuntutan.
Peluncuran dataset Webli-100b tepat untuk menyelesaikan masalah kemacetan ini. Tidak seperti set data sebelumnya, Webli-100b tidak lagi mengadopsi mekanisme penyaringan yang ketat, yang sering menghilangkan detail budaya yang penting. Sebaliknya, ini lebih fokus pada memperluas cakupan data, terutama di bidang-bidang seperti bahasa sumber daya rendah dan beragam ekspresi budaya. Tim peneliti melakukan model pra-pelatihan pada subset yang berbeda dari Webli-100b untuk menganalisis secara mendalam dampak skala data pada kinerja model.
Hasil eksperimen menunjukkan bahwa model yang dilatih dengan dataset WebLI-100B penuh berkinerja lebih baik secara signifikan pada tugas budaya dan multibahasa daripada yang dilatih pada dataset yang lebih kecil, bahkan dengan sumber daya komputasi yang sama. Selain itu, penelitian ini menemukan bahwa memperluas dataset dari 10B ke 100B memiliki dampak yang lebih kecil pada tolok ukur yang berpusat pada barat, tetapi membawa peningkatan yang signifikan dalam tugas keanekaragaman budaya dan pengambilan bahasa sumber daya rendah.
Kertas: https://arxiv.org/abs/2502.07617
Poin -Poin Kunci:
** Dataset baru **: Webli-100b adalah dataset besar yang berisi 100 miliar pasangan teks gambar, yang dirancang untuk meningkatkan keragaman budaya dan multibahasa model AI.
** Model Peningkatan Kinerja **: Model yang dilatih dengan dataset Webli-100B berkinerja lebih baik daripada dataset sebelumnya dalam tugas multikultural dan multibahasa.
** Kurangi bias **: Dataset Webli-100b menghindari penyaringan yang ketat, mempertahankan lebih banyak detail budaya, dan meningkatkan inklusif dan keakuratan model.