В ходе последнего исследования Apple был выпущен эталонный тест MAD-Bench, который предназначен для оценки устойчивости мультимодальных моделей большого языка (MLLM) при работе с вводящей в заблуждение информацией. В этом исследовании всесторонне оценивается способность MLLM обеспечивать согласованность текста и изображений с помощью 850 пар изображений, предоставляя ценные справочные данные для разработки MLLM. Создание этого эталона поможет повысить надежность и защиту от помех моделей ИИ, а также будет способствовать здоровому развитию технологий ИИ.
Apple Research предложила тест MAD-Bench для решения проблемы уязвимости мультимодальных моделей большого языка (MLLM) при обработке вводящей в заблуждение информации. Это исследование состояло из 850 пар изображение-сигнал и оценивало способность MLLM обеспечивать соответствие текста и изображения. Исследование показало, что GPT-4V лучше справляется с пониманием сцены и визуальной путаницей, что дает важные советы по разработке моделей искусственного интеллекта. Благодаря тесту MAD-Bench надежность модели ИИ будет повышена, а будущие исследования станут более надежными.Появление теста MAD-Bench знаменует собой новый этап в оценке моделей ИИ. В будущем будет появляться все больше и больше надежных тестов, способствующих более безопасному и надежному развитию технологий ИИ и приносящих больше пользы человеческому обществу.