Команда Google DeepMind недавно выпустила набор данных Webli-100B, который содержит 100 миллиардов пар изображений текста, отмечая основной прорыв в области моделей визуального языка искусственного интеллекта. Основной целью этого набора данных является значительное улучшение эффективности моделей ИИ в решении различных культурных и многоязычных задач с помощью богатых ресурсов передачи данных, тем самым способствуя инклюзивности и разнообразию технологий искусственного интеллекта.

Модели визуального языка (VLM) - это мосты, соединяющие изображения и тексты, и широко используются в таких задачах, как генерация подзаголовок изображений, визуальный вопрос и ответы. Производительность этих моделей в значительной степени зависит от качества и количества учебных данных. В прошлом исследователи полагались в первую очередь на крупные наборы данных, такие как концептуальные подписи и Laion, хотя эти наборы данных содержат сотни миллионов пар изображений, их масштаб постепенно приближался к их пределам и не может соответствовать дальнейшему улучшению точности и включения модели. требовать.
Запуск набора данных Webli-100B заключается в том, чтобы решить эту проблему с узким местом. В отличие от предыдущих наборов данных, Webli-100B больше не принимает строгий механизм фильтрации, который часто устраняет важные культурные детали. Вместо этого он больше фокусируется на расширении охвата данных, особенно в таких областях, как язык с низким ресурсом и разнообразные культурные выражения. Исследовательская группа провела модель предварительного обучения на различных подмножествах Webli-100B, чтобы глубоко проанализировать влияние шкалы данных на производительность модели.
Экспериментальные результаты показывают, что модели, обученные полным набором данных WEBLI-100B, выполняли значительно лучше для культурных и многоязычных задач, чем те, которые обучались на более мелких наборах данных, даже с теми же вычислительными ресурсами. Кроме того, исследование показало, что расширение набора данных с 10b до 100b оказало меньшее влияние на критерии, ориентированные на запад, но принесла значительные улучшения в задачах культурного разнообразия и поиска языка с низким разрешением.
Бумага: https://arxiv.org/abs/2502.07617
Ключевые моменты:
** Совершенно новый набор данных **: Webli-100B-это огромный набор данных, содержащий 100 миллиардов пар изображений текста, предназначенный для улучшения культурного разнообразия и многоязычности моделей искусственного интеллекта.
** Повышение производительности модели **: модели, обученные набором данных WEBLI-100B, работают лучше, чем предыдущие наборы данных в многоязычных и многоязычных задачах.
** Уменьшить смещение **: набор данных Webli-100B позволяет избежать строгой фильтрации, сохраняет больше культурных деталей и улучшает инклюзивность и точность модели.