В этой статье рассказывается об отчете о ходе работы Чжиюаньского научно-исследовательского института за 2024 год, опубликованном Ван Чжунъюань, директором Чжиюаньского научно-исследовательского института, на 6-й Пекинской конференции Чжиюань, в котором особое внимание уделяется семейному ковшу большой модели Zhiyuan. В отчете представлены последние результаты исследований Института исследований интеллектуальных источников в области языка, мультимодальности, воплощения и больших моделей биологических вычислений, а также обновления и компоновки его технологической базы с открытым исходным кодом. Редактор Downcodes подробно интерпретирует содержание отчета, особенно состав ковша семейства больших моделей Zhiyuan и его основные технологии.

14 июня в выставочном центре Чжунгуаньцунь прошла 6-я «Пекинская конференция мудрости», организованная Научно-исследовательским институтом мудрости. В ходе этой встречи Ван Чжунюань, президент Научно-исследовательского института Чжиюань, представил отчет о ходе работы Научно-исследовательского института Чжиюань в 2024 году и сосредоточился на большой модели семейного ковша Zhiyuan.
В отчете о ходе работы Чжиюаньского научно-исследовательского института за 2024 год Чжиюаньский научно-исследовательский институт поделился своими передовыми исследованиями и прогрессом в области больших моделей языка, мультимодальности, воплощения и биологических вычислений, а также итеративного обновления и разработки полнофункциональной открытой большой модели. Исходная технологическая база. Планировка территории. По данным Исследовательского института Чжиюань, разработка больших языковых моделей на этом этапе уже обладает основными возможностями понимания и рассуждения, присущими общему искусственному интеллекту, и сформировала технический маршрут, который использует большие языковые модели в качестве ядра для согласования и сопоставления других модальностей. Модель имеет предварительное мультимодальное понимание и возможности генерации. Но это не окончательный технический путь искусственного интеллекта к восприятию и пониманию физического мира. Вместо этого ему следует принять единую парадигму модели для реализации мультимодального ввода и вывода, чтобы модель имела собственные возможности мультимодального расширения и развивалась. в модель мира.
«В будущем большие модели будут интегрированы с интеллектуальным оборудованием в виде цифровых агентов и войдут в физический мир из цифрового мира в форме воплощенного интеллекта. В то же время технические средства больших моделей могут обеспечить Новая парадигма выражения знаний для научных исследований и ускорения исследований человечества и изучения законов микрофизического мира постоянно приближаются к конечной цели — созданию общего искусственного интеллекта», — сказал Ван Чжунюань.
Большой модельный семейный ковш Zhiyuan занимает центральное место в отчете о проделанной работе Исследовательского института Zhiyuan за 2024 год. На встрече репортер узнал, что семейство больших моделей Чжиюань состоит из четырех крупных направлений исследований моделей: серия больших языковых моделей, серия мультимодальных больших моделей, большая модель воплощенного интеллекта и большая модель биологических вычислений, всего 12 исследований. Если взять в качестве примера большую серию моделей языка Чжиюань, это направление включает в себя два крупных модельных исследования: первую в мире низкоуглеродную одночастичную языковую модель с плотностью в триллион долларов Tele-FLM-1T и серию общеязыковых векторных моделей BGE (BAAI General Embedding). .
«В ответ на проблему высокого энергопотребления при обучении больших моделей Чжиюаньский научно-исследовательский институт и Исследовательский институт искусственного интеллекта China Telecom (TeleAI) совместно разработали и запустили первый в мире плотный триллион низкоуглеродных мономеров на основе ключевых технологий, таких как рост моделей. Языковая модель Tele-FLM-1T. Эта модель вместе с версией 52B с уровнем 10 миллиардов и версией 102B с уровнем 100 миллиардов составляют модель серии Tele-FLM», — сказал ответственный за модель. соответствующий бизнес модели серии Tele-FLM сообщил журналистам. Сообщается, что модели серии Tele-FLM достигли низкоуглеродного роста. Поскольку обычная схема обучения в отрасли использует всего 9% вычислительных ресурсов, основанных на 112 серверах A800, для завершения обучения 3 моделей потребовалось 4 месяца. на общую сумму 2,3T токенов и успешно обучили модель Tele-FLM-1T с плотностью 10 000 миллиардов. «Весь процесс обучения модели представляет собой нулевую корректировку и нулевые повторы, с высокой эффективностью вычислительной мощности, хорошей сходимостью и стабильностью модели. В настоящее время исходный код модели серии TeleFLM полностью открыт в версии 52B с основными технологиями (технология роста, оптимальный гиперпараметр). прогноз), детали обучения (кривая потерь, оптимальные гиперпараметры, соотношение данных и G radNorm и т. д.) имеют открытый исходный код. Есть надежда, что технология с открытым исходным кодом окажет благотворное влияние на большое сообщество моделей. Версия Tele-FLM-1T скоро станет открытой. Это отличный начальный параметр для сообщества, позволяющий обучать триллионы плотных моделей и избегать трудностей сходимости при обучении триллионов моделей и других проблем», — сказал ответственный человек.
Серия универсальных семантических векторных моделей BGE, независимо разработанная Чжиюаньским научно-исследовательским институтом, основана на технологии RAG с улучшенным поиском, которая может обеспечить точное семантическое соответствие между данными и поддерживать использование внешних знаний в больших моделях. «С августа 2023 года серия моделей BGE претерпела три итерации, достигнув лучших показателей в отрасли в трех задачах: поиск на китайском и английском языках, многоязычный поиск и уточненный поиск. Его комплексные возможности значительно лучше, чем у OpenAI. модели от Google, Microsoft, Cohere и других учреждений в настоящее время доступны для скачивания. Он занимает первое место среди отечественных моделей искусственного интеллекта и был интегрирован с основными международными платформами разработки искусственного интеллекта, такими как HuggingFace, Langchain и LlamaIndex, а также с крупными поставщиками облачных услуг, такими как Tencent, Huawei, Alibaba, Byte, Microsoft и Amazon, и предоставляет Коммерческие услуги внешнему миру сообщил журналистам человек, отвечающий за сопутствующий бизнес серии семантических векторных моделей BGE.
В целом, Чжиюаньский научно-исследовательский институт добился значительного прогресса в развитии технологий больших моделей. Его «корзина для большого семейства моделей» и стратегия с открытым исходным кодом будут и дальше способствовать инновациям и разработкам в области искусственного интеллекта и заслуживают постоянного внимания. Редактор Downcodes надеется на еще более революционные результаты в будущем.