Официальный веб-сайт www.binance.com/zh-cn :введите официальный веб-сайт ☜☜
Приложение: ☞☞official App Download☜☜
Благодаря быстрому развитию технологии искусственного интеллекта, как эффективно оценить и сравнить силу различных генеративных моделей ИИ, стало очень обеспокоенной проблемой. Традиционные методы анализа ИИ постепенно раскрывают свои ограничения, и по этой причине разработчики ИИ активно изучают более инновационные методы оценки.
Недавно появился веб-сайт под названием «Minecraft Benchmark» (MC-Bench). Его уникальность заключается в том, что он использует игру Microsoft, построенную на песочнице, «Minecraft» в качестве платформы, позволяющая пользователям оценивать свою производительность, сравнивая модели искусственного интеллекта на основе подсказок. Что удивительно, так это то, что создатель этой новой платформы оказался учеником 12 -го класса.

Веб-сайт MC-Bench предоставляет интуитивно понятный и интересный способ оценки моделей ИИ. Разработчики вводят различные подсказки в модель ИИ, участвующую в тесте, и модель будет генерировать соответствующее здание Minecraft. Пользователи могут голосовать по этим зданиям, не зная, какая работа создается, с помощью которой модель ИИ, чтобы выбрать то, что они считают, скорее соответствует подсказкам и лучше. Только после того, как голосование закончится, пользователи увидят «создателя» за каждым зданием. Этот механизм «слепого отбора» предназначен для более объективного отражения фактической способности генерации моделей ИИ.
Ади Сингх сказал, что Minecraft был выбран в качестве бенчмаркирующей платформы не только из -за популярности самой игры - это бестселлера в истории. Что еще более важно, широко распространенная популярность этой игры и знакомство его визуального стиля делают его относительно легким для людей, которые никогда не играли в эту игру, чтобы сказать, какой ананас, сделанный из квадратов, выглядит более реалистичным. Он считает, что «Minecraft облегчает людям увидеть прогресс [разработки ИИ]», метод визуальной оценки, который более убедителен, чем просто текстовая метрика.
В настоящее время MC-Bench в основном проводит относительно простые строительные задачи, такие как просьба модели искусственного интеллекта для написания кода для создания соответствующих игровых структур на основе таких советов, как «King of Frost» или «красочные тропические хижины на примитивных пляжах». По сути, это эталон программирования, но умение заключается в том, что пользователям не нужно углубляться в сложный код и может судить о качестве работы на основе интуитивных визуальных эффектов, что значительно улучшает участие проекта и потенциал сбора данных.
Философия дизайна MC-Bench состоит в том, чтобы позволить общественности более интуитивно чувствовать уровень развития технологии ИИ. «Текущие рейтинги очень соответствуют моему личному опыту с этими моделями, что отличается от многих простых текстовых критериев», - сказал Сингх. Он считает, что MC-Bench может предоставить ценную ссылку для связанных компаний, чтобы помочь им судить, являются ли их исследования и разработки ИИ правильными.
Хотя MC-Bench был инициирован Ади Сингхом, он также собрал группу добровольных участников. Стоит отметить, что несколько ведущих компаний по искусственному искусству, включая Anpropic, Google, Openai и Alibaba, предоставили субсидии для проекта для использования своих продуктов для запуска контрольных показателей. Тем не менее, веб-сайт Mc-Bench заявляет, что эти компании не связаны с проектом.
Сингх также полон перспектив на будущее MC-Bench. Он сказал, что простое строительство в настоящее время в настоящее время является отправной точкой и может быть распространено на долгосрочное планирование и целеустремленные задачи в будущем. Он считает, что игры могут стать безопасной и контролируемой средой для тестирования возможностей «Агента» ИИ, чего трудно достичь в реальной жизни, поэтому у него есть преимущество в тестировании.
В дополнение к MC-Bench, другие игры, такие как Street Fighter и вы рисуете, и я думаю, также использовались в качестве экспериментальных критериев для ИИ, что отражает, что тесты ИИ являются очень умелым районом сами. Традиционные стандартизированные оценки часто имеют «преимущество в домашнем поле», потому что модели ИИ были оптимизированы для определенных типов проблем во время обучения, особенно по вопросам, которые требуют памяти или базового вывода. Например, GPT-4 Openai достиг 88% отличных результатов на экзамене LSAT, но не смог сказать, сколько «r» в слове «клубника».

Claude 3,7Sonnet от Anpropic достиг 62,3% в стандартизированных контрольных показателях разработки программного обеспечения, но был не таким хорошим, как большинство пятилетних детей, когда дело доходит до игры Pokémon.
Появление MC-Bench обеспечивает новую и легкую для понимания перспективы для оценки способности генеративных моделей ИИ. Используя известную игровую платформу, она превращает сложные технологические возможности ИИ в интуитивные визуальные сравнения, позволяя большему количеству людей участвовать в оценке ИИ и когнитивном процессе. Хотя фактическое значение этого метода оценки все еще обсуждается, он, несомненно, предоставляет нам новое окно для наблюдения за разработкой ИИ.
Вход в проект: https://top.aibase.com/tool/mc-bench