Este artigo relata o relatório de progresso do Instituto de Pesquisa Zhiyuan de 2024, divulgado por Wang Zhongyuan, diretor do Instituto de Pesquisa Zhiyuan, na 6ª Conferência Zhiyuan de Pequim, com foco no grande modelo de balde familiar Zhiyuan. O relatório mostra os resultados mais recentes da pesquisa do Intelligent Source Research Institute nas áreas de linguagem, multimodalidade, incorporação e grandes modelos de computação biológica, bem como a atualização e layout de sua base tecnológica de código aberto. O editor do Downcodes interpretará detalhadamente o conteúdo do relatório, especialmente a composição do balde da família de modelos grandes Zhiyuan e sua tecnologia principal.

Em 14 de junho, a 6ª "Conferência de Sabedoria de Pequim", organizada pelo Instituto de Pesquisa da Sabedoria, foi realizada no Centro de Exposições de Zhongguancun. Durante esta reunião, Wang Zhongyuan, presidente do Instituto de Pesquisa Zhiyuan, fez um relatório de progresso sobre o Instituto de Pesquisa Zhiyuan em 2024 e se concentrou no grande modelo de balde familiar Zhiyuan.
No relatório de progresso do Zhiyuan Research Institute de 2024, o Zhiyuan Research Institute compartilhou seu progresso de exploração e pesquisa de ponta em grandes modelos de linguagem, multimodalidade, incorporação e computação biológica, bem como a atualização iterativa e o desenvolvimento do grande modelo full-stack aberto base tecnológica de origem. De acordo com o Instituto de Pesquisa Zhiyuan, o desenvolvimento de grandes modelos de linguagem nesta fase já possui as capacidades básicas de compreensão e raciocínio da inteligência artificial geral e formou uma rota técnica que usa grandes modelos de linguagem como núcleo para alinhar e mapear outras modalidades . O modelo possui capacidades preliminares de compreensão e geração multimodais. Mas esta não é a rota técnica definitiva para a inteligência artificial perceber e compreender o mundo físico. Em vez disso, ela deve adotar um paradigma de modelo unificado para realizar entradas e saídas multimodais, para que o modelo tenha capacidades nativas de expansão multimodal e evolua. em um modelo mundial.
"No futuro, grandes modelos serão integrados com hardware inteligente na forma de agentes digitais e entrarão no mundo físico a partir do mundo digital na forma de inteligência incorporada. Ao mesmo tempo, os meios técnicos de grandes modelos podem fornecer um novo paradigma de expressão de conhecimento para a pesquisa científica e acelerar a exploração e a pesquisa das leis do mundo microfísico pela humanidade estão constantemente se aproximando do objetivo final da inteligência artificial geral", disse Wang Zhongyuan.
O balde familiar de modelo grande Zhiyuan é um destaque neste relatório de progresso do Instituto de Pesquisa Zhiyuan de 2024. O repórter aprendeu na reunião que o balde da família de modelos grandes Zhiyuan consiste em quatro grandes direções de pesquisa de modelos: grandes séries de modelos de linguagem, grandes séries de modelos multimodais, grandes modelos de inteligência incorporada e grandes modelos de computação biológica, com um total de 12 estudos. Tomando como exemplo a grande série de modelos da linguagem Zhiyuan, esta direção inclui dois grandes estudos de modelos, o primeiro modelo de linguagem de trilhões densos de corpo único e baixo carbono do mundo, Tele-FLM-1T, e o modelo de vetor de linguagem geral BGE (BAAI General Embedding) série .
"Em resposta ao problema do alto consumo de energia de computação no treinamento de grandes modelos, o Zhiyuan Research Institute e o China Telecom Artificial Intelligence Research Institute (TeleAI) desenvolveram e lançaram em conjunto o primeiro trilhão denso de monômeros de baixo carbono do mundo, baseado em tecnologias-chave, como o crescimento do modelo e previsão de perdas. Modelo de linguagem Tele-FLM-1T Este modelo, juntamente com a versão 52B de nível 10 bilhões e a versão 102B de nível 100 bilhões, constituem o modelo da série Tele-FLM”, disse o responsável pelo. negócios relevantes do modelo da série Tele-FLM, disseram aos repórteres. É relatado que os modelos da série Tele-FLM alcançaram um crescimento de baixo carbono. Com apenas 9% dos recursos de poder computacional do esquema de treinamento normal da indústria, baseado em 112 servidores A800, foram necessários 4 meses para concluir o treinamento de 3 modelos. totalizando 2,3Ttokens e treinou com sucesso 10.000 bilhões do modelo denso Tele-FLM-1T. "Todo o processo de treinamento do modelo é zero ajuste e zero nova tentativa, com alta eficiência de poder de computação e boa convergência e estabilidade do modelo. Atualmente, o modelo da série TeleFLM tem código-fonte totalmente aberto na versão 52B, com tecnologias principais (tecnologia de crescimento, hiperparâmetro ideal previsão), detalhes de treinamento (curva de perda, hiperparâmetros ideais, proporção de dados e G radNorm, etc.) são todos de código aberto. Espera-se que a tecnologia de código aberto possa ter um impacto benéfico na grande comunidade de modelos. A versão Tele-FLM-1T será de código aberto em breve. excelente parâmetro inicial para a comunidade treinar trilhões de modelos densos e evitar a dificuldade de convergência no treinamento de trilhões de modelos e outras questões”, disse o responsável.
A série BGE de modelos vetoriais semânticos universais desenvolvidos independentemente pelo Zhiyuan Research Institute é baseada na tecnologia RAG aprimorada por recuperação, que pode alcançar correspondência semântica precisa entre dados e apoiar a invocação de conhecimento externo em grandes modelos. "Desde agosto de 2023, a série de modelos BGE passou por três iterações, alcançando o melhor desempenho do setor nas três tarefas de recuperação em chinês e inglês, recuperação multilíngue e recuperação refinada. Seus recursos abrangentes são significativamente melhores do que OpenAI, Similar modelos do Google, Microsoft, Cohere e outras instituições estão atualmente disponíveis para download. Ele ocupa o primeiro lugar em modelos domésticos de IA e foi integrado por estruturas internacionais de desenvolvimento de IA, como HuggingFace, Langchain e LlamaIndex, bem como por grandes provedores de serviços em nuvem, como Tencent, Huawei, Alibaba, Byte, Microsoft e Amazon, e fornece serviços comerciais para o mundo exterior O responsável pelos negócios relacionados do modelo de vetor semântico da série BGE disse aos repórteres.
Em suma, o Instituto de Pesquisa Zhiyuan fez progressos significativos na promoção do desenvolvimento de tecnologia de modelos grandes. Seu "balde familiar de grandes modelos" e sua estratégia de código aberto promoverão ainda mais a inovação e o desenvolvimento no campo da IA e merecerão atenção contínua. O editor do Downcodes espera resultados mais inovadores no futuro.