Este artículo informa sobre el informe de progreso del Instituto de Investigación Zhiyuan 2024 publicado por Wang Zhongyuan, director del Instituto de Investigación Zhiyuan, en la 6.ª Conferencia Zhiyuan de Beijing, centrándose en el cucharón de la familia de modelos grandes de Zhiyuan. El informe muestra los últimos resultados de la investigación del Instituto de Investigación de Fuentes Inteligentes en los campos de modelos grandes de lenguaje, multimodalidad, encarnación y computación biológica, así como la actualización y el diseño de su base de tecnología de código abierto. El editor de Downcodes interpretará el contenido del informe en detalle, especialmente la composición del cubo de la familia de modelos grandes Zhiyuan y su tecnología central.

El 14 de junio, se llevó a cabo en el Centro de Exposiciones Zhongguancun la sexta "Conferencia de Sabiduría de Beijing" organizada por el Instituto de Investigación de la Sabiduría. Durante esta reunión, Wang Zhongyuan, presidente del Instituto de Investigación Zhiyuan, presentó un informe de progreso sobre el Instituto de Investigación Zhiyuan en 2024 y se centró en el cucharón de la familia de modelos grandes de Zhiyuan.
En el informe de progreso del Instituto de Investigación Zhiyuan de 2024, el Instituto de Investigación Zhiyuan compartió su exploración de vanguardia y el progreso de la investigación en modelos grandes de lenguaje, multimodalidad, encarnación y computación biológica, así como la actualización iterativa y el desarrollo del modelo grande abierto de pila completa. Base tecnológica de origen. Según el Instituto de Investigación Zhiyuan, el desarrollo de grandes modelos de lenguaje en esta etapa ya posee las capacidades centrales de comprensión y razonamiento de la inteligencia artificial general, y ha formado una ruta técnica que utiliza grandes modelos de lenguaje como núcleo para alinear y mapear otras modalidades. El modelo tiene capacidades preliminares de generación y comprensión multimodal. Pero esta no es la ruta técnica definitiva para que la inteligencia artificial perciba y comprenda el mundo físico. En cambio, debería adoptar un paradigma de modelo unificado para realizar entradas y salidas multimodales, de modo que el modelo tenga capacidades nativas de expansión multimodal y evolucione. en un modelo mundial.
"En el futuro, los modelos grandes se integrarán con hardware inteligente en forma de agentes digitales y entrarán al mundo físico desde el mundo digital en forma de inteligencia incorporada. Al mismo tiempo, los medios técnicos de los modelos grandes pueden proporcionar "Un nuevo paradigma de expresión de conocimiento para la investigación científica y acelerar la exploración y la investigación de las leyes del mundo microfísico por parte de la humanidad se acercan constantemente al objetivo final de la inteligencia artificial general", dijo Wang Zhongyuan.
El cucharón de la familia de modelos grandes de Zhiyuan es un punto destacado en este informe de progreso del Instituto de Investigación Zhiyuan de 2024. El periodista se enteró en la reunión que el grupo de la familia de modelos grandes de Zhiyuan consta de cuatro direcciones de investigación de modelos grandes: series de modelos de lenguaje grandes, series de modelos grandes multimodales, modelos grandes de inteligencia incorporada y modelos grandes de computación biológica, con un total de 12 estudios. Tomando como ejemplo la gran serie de modelos de lenguaje Zhiyuan, esta dirección incluye dos grandes estudios de modelos: el primer modelo de lenguaje de un solo cuerpo denso con bajo contenido de carbono del mundo, Tele-FLM-1T, y el modelo de vector de lenguaje general BGE (BAAI General Embedding). .
"En respuesta al problema del alto consumo de energía informática en el entrenamiento de modelos grandes, el Instituto de Investigación Zhiyuan y el Instituto de Investigación de Inteligencia Artificial de Telecomunicaciones de China (TeleAI) desarrollaron y lanzaron conjuntamente el primer billón de monómeros con bajas emisiones de carbono del mundo basado en tecnologías clave como el crecimiento de modelos. y predicción de pérdidas Modelo de lenguaje Tele-FLM-1T Este modelo, junto con la versión 52B de 10 mil millones de niveles y la versión 102B de 100 mil millones de niveles, constituyen el modelo de la serie Tele-FLM”, dijo el responsable. negocio relevante del modelo de la serie Tele-FLM dijo a los periodistas. Se informa que los modelos de la serie Tele-FLM han logrado un crecimiento con bajas emisiones de carbono. Con solo el 9% de los recursos de potencia informática del plan de capacitación ordinario de la industria, basado en 112 servidores A800, se necesitaron 4 meses para completar la capacitación de 3 modelos. con un total de 2,3 Ttokens y entrenó con éxito 10.000 mil millones de modelos densos Tele-FLM-1T. "Todo el proceso de entrenamiento del modelo es ajuste cero y reintento cero, con alta eficiencia de potencia de cálculo y buena convergencia y estabilidad del modelo. En la actualidad, el modelo de la serie TeleFLM ha sido completamente abierto en la versión 52B, con tecnologías centrales (tecnología de crecimiento, hiperparámetro óptimo predicción), detalles de entrenamiento (curva de pérdida, hiperparámetros óptimos, relación de datos y G radNorm, etc.) son todos de código abierto. Se espera que la tecnología de código abierto pueda tener un impacto beneficioso en la gran comunidad de modelos. Se espera que la versión Tele-FLM-1T sea de código abierto pronto. Excelente parámetro inicial para que la comunidad entrene billones de modelos densos y evite la dificultad de convergencia en el entrenamiento de billones de modelos y otros problemas”, dijo el responsable.
La serie BGE de modelos de vectores semánticos universales desarrollados de forma independiente por el Instituto de Investigación Zhiyuan se basan en la tecnología RAG de recuperación mejorada, que puede lograr una coincidencia semántica precisa entre datos y admitir la invocación de conocimiento externo en modelos grandes. "Desde agosto de 2023, la serie de modelos BGE ha pasado por tres iteraciones, logrando el mejor rendimiento de la industria en las tres tareas de recuperación en chino e inglés, recuperación en varios idiomas y recuperación refinada. Sus capacidades integrales son significativamente mejores que OpenAI, similar Actualmente se pueden descargar modelos de Google, Microsoft, Cohere y otras instituciones. Ocupa el primer lugar en modelos nacionales de IA y se ha integrado en los principales marcos internacionales de desarrollo de IA, como HuggingFace, Langchain y LlamaIndex, así como en los principales proveedores de servicios en la nube, como Tencent, Huawei, Alibaba, Byte, Microsoft y Amazon, y proporciona servicios comerciales al mundo exterior, dijo a los periodistas la persona a cargo de los negocios relacionados de la serie BGE del modelo de vector semántico.
En general, el Instituto de Investigación Zhiyuan ha logrado avances significativos en la promoción del desarrollo de tecnología de modelos grandes. Su "gran grupo de familias de modelos" y su estrategia de código abierto promoverán aún más la innovación y el desarrollo en el campo de la IA y merecen una atención continua. El editor de Downcodes espera obtener más resultados innovadores en el futuro.