В последнем отчете, опубликованном Epochai, указывается, что общедоступные высококачественные наборы данных для обучения тексту в мире будут исчерпаны большими языковыми моделями в ближайшие несколько лет. В отчете прогнозируется, что в период с 2026 по 2032 год существующие данные о примерно 300 триллионах токенов будут израсходованы, а «переобучение» модели ускорило этот процесс. Версия Meta Llama3 8B перетренирована в ошеломляющие 100 раз. Если все модели примут этот подход, данные могут быть исчерпаны к 2025 году. Столкнувшись с грядущей «нехваткой данных», Эпочай предложил четыре потенциальных решения, открывающих новое направление сбора данных в области искусственного интеллекта.

Исследователи особо отметили, что «перетренированность» является основным виновником ускорения потребления тренировочных данных. Например, последняя версия Llama3 с открытым исходным кодом Meta 8B имеет поразительное переобучение в 100 раз. Если все модели будут вести себя подобным образом, нашим данным, возможно, придется попрощаться в 2025 году!

Но не волнуйтесь, у нас еще есть выход. Epoch AI предоставляет четыре новых метода получения обучающих данных, благодаря чему «нехватка данных» в мире ИИ больше не является кошмаром.
1) Синтетические данные. Синтетические данные, как и еда, приготовленная из кулинарного набора, используют глубокое обучение для моделирования реальных данных и генерации совершенно новых данных. Но не волнуйтесь слишком рано: качество синтетических данных может быть неравномерным, склонным к переобучению и не иметь тонких лингвистических особенностей реального текста.
2) Мультимодальное и междоменное обучение данным. Этот метод не ограничивается текстом, но также включает изображения, видео, аудио и другие типы данных. Так же, как и в КТВ, можно не только петь, танцевать, но и действовать. Мультимодальное обучение позволяет модели более комплексно понимать и справляться со сложными задачами.
3) Частные данные. В настоящее время общий объем частных текстовых данных в мире составляет около 3100 триллионов токенов, что более чем в 10 раз превышает объем общедоступных данных. Но при использовании частных данных необходимо соблюдать осторожность! безопасность – это большие вещи. Более того, процесс получения и интеграции закрытых данных может быть сложным.
4) Интерактивное обучение в реальном времени с реальным миром. Позвольте модели учиться и совершенствоваться посредством прямого взаимодействия с реальным миром. Этот подход требует, чтобы модели были автономными и адаптируемыми, способными точно понимать инструкции пользователя и предпринимать действия в реальном мире.
Каждый из четырех методов, предложенных Эпочаем, имеет свои преимущества и недостатки и сталкивается с разными проблемами. В будущем то, как эффективно решать проблемы с данными, напрямую повлияет на разработку и применение технологий искусственного интеллекта. Это требует от научных исследователей и промышленности совместной работы над изучением более эффективных способов получения и использования данных для обеспечения устойчивого и здорового развития искусственного интеллекта.