Редактор Downcodes узнал, что лаборатория Tencent Youtu в сотрудничестве с исследовательской группой Шанхайского университета Цзяо Тонг разработала революционный метод расширения знаний, который привнес революционные изменения в оптимизацию больших моделей. Этот метод не требует традиционной тонкой настройки модели, напрямую извлекает знания из данных из открытых источников, значительно упрощает процесс оптимизации и превосходит современную технологию (SOTA) в ряде задач. Эта инновационная технология эффективно решает проблему зависимости традиционных методов точной настройки моделей от больших объемов аннотированных данных и вычислительных ресурсов, а также предоставляет новые возможности для продвижения больших моделей в практические приложения.
Tencent Youtu Lab и исследовательская группа Шанхайского университета Цзяо Тонг совместно запустили революционный метод расширения знаний, открывающий новый путь для оптимизации больших моделей. Эта инновационная технология отказывается от ограничений традиционной точной настройки моделей, извлекает знания непосредственно из данных из открытых источников, значительно упрощает процесс оптимизации модели и обеспечивает выдающуюся производительность, превосходящую современную технологию (SOTA) при выполнении множества задач.

В последние годы, хотя модели больших языков (LLM) добились значительного прогресса в различных областях, они по-прежнему сталкиваются со многими проблемами в практическом применении. Традиционные методы точной настройки модели требуют большого количества аннотированных данных и вычислительных ресурсов, что зачастую трудно достижимо для многих практических предприятий. Хотя сообщество открытого исходного кода предоставляет множество моделей для точной настройки и наборов данных инструкций, как эффективно использовать эти ресурсы и улучшить возможности выполнения задач и производительность обобщения модели с ограниченными размеченными выборками, всегда было проблемой, с которой сталкивается отрасль.
В ответ на эту проблему исследовательская группа предложила новую экспериментальную структуру, которая фокусируется на использовании знаний из открытых источников для расширения возможностей модели в условиях реальных бизнес-данных, помеченных K-shot. Эта платформа полностью использует преимущества ограниченных выборок и обеспечивает повышение производительности больших языковых моделей при выполнении направленных задач.

К основным инновациям этого исследования относятся:
Эффективный выбор модели. Максимизируйте потенциал существующих моделей в условиях ограниченных данных путем всесторонней оценки сложности вывода, производительности модели и богатства знаний.
Оптимизация извлечения знаний: разработан метод извлечения соответствующих знаний из данных из открытых источников. Благодаря стратегии проверки данных, которая уравновешивает сходство и разнообразие, он предоставляет дополнительную информацию для модели, одновременно снижая риск переобучения.
Система адаптивных моделей. Адаптивная система, основанная на структуре гибридной экспертной модели, создана для реализации дополнения знаний между несколькими эффективными моделями и повышения общей производительности.
На экспериментальном этапе исследовательская группа провела комплексную оценку, используя шесть наборов данных из открытых источников. Результаты показывают, что этот новый метод превосходит базовые и другие современные методы в различных задачах. Визуализируя шаблоны активации экспертов, исследование также показало, что вклад каждого эксперта в модель незаменим, что еще раз подтверждает эффективность метода.
Это исследование не только демонстрирует огромный потенциал знаний из открытых источников в области больших моделей, но и дает новые идеи для будущего развития технологий искусственного интеллекта. Он преодолевает ограничения традиционной оптимизации моделей и предоставляет предприятиям и исследовательским учреждениям реальное решение для повышения производительности моделей в условиях ограниченных ресурсов.
Поскольку эта технология продолжает совершенствоваться и продвигаться, у нас есть основания полагать, что она сыграет важную роль в разумной модернизации различных отраслей промышленности. Это сотрудничество между Tencent Youtu и Шанхайским университетом Цзяо Тонг является не только моделью сотрудничества между научными кругами и промышленностью, но и важным шагом в продвижении технологий искусственного интеллекта на более высокий уровень.
Адрес статьи: https://www.arxiv.org/pdf/2408.15915.
Этот результат исследования предлагает новую идею и реальное решение для оптимизации больших моделей. Он имеет огромный потенциал в практическом применении и заслуживает дальнейшего применения и развития в будущем. Редактор Downcodes продолжит обращать внимание на последние события в этой области и предлагать читателям еще больше интересных отчетов.