이 기사는 Zhiyuan 대형 모델 패밀리 버킷을 중심으로 Zhiyuan 연구소 소장 Wang Zhongyuan이 제6차 베이징 Zhiyuan 회의에서 발표한 2024 Zhiyuan 연구소 진행 보고서를 보고합니다. 보고서는 언어, 다중 양식, 구현, 생물학적 컴퓨팅 대형 모델 분야의 지능형 소스 연구소의 최신 연구 결과와 오픈 소스 기술 기반의 업그레이드 및 레이아웃을 보여줍니다. Downcodes의 편집자는 보고서의 내용, 특히 Zhiyuan 대형 모델 제품군 버킷의 구성과 핵심 기술을 자세히 해석합니다.

6월 14일, 지혜연구원이 주최한 제6회 '베이징 지혜회의'가 중관촌 전시센터에서 열렸습니다. 이번 회의에서 Zhiyuan 연구소 소장 Wang Zhongyuan은 2024년 Zhiyuan 연구소 진행 상황을 보고하고 Zhiyuan 대형 모델 패밀리 버킷에 중점을 두었습니다.
2024년 Zhiyuan 연구소 진행 보고서에서 Zhiyuan 연구소는 언어, 다중 양식, 구현 및 생물학적 컴퓨팅 대형 모델 분야의 최첨단 탐색 및 연구 진행 상황과 대형 모델 풀 스택 오픈의 반복적 업그레이드 및 개발을 공유했습니다. 원천 기술 기반. Zhiyuan 연구소에 따르면 이 단계의 대규모 언어 모델 개발은 이미 일반 인공 지능의 핵심 이해 및 추론 기능을 보유하고 있으며 대규모 언어 모델을 핵심으로 사용하여 다른 양식을 정렬하고 매핑하는 기술 경로를 형성했습니다. 이 모델은 예비 다중 모드 이해 및 생성 기능을 갖추고 있습니다. 그러나 이는 인공지능이 물리적 세계를 인식하고 이해하는 궁극적인 기술 경로가 아니며, 대신 다중 모드 입력 및 출력을 실현하기 위한 통합 모델 패러다임을 채택하여 모델이 기본 다중 모드 확장 기능을 갖고 진화하도록 해야 합니다. 세계 모델로.
"미래에는 대형 모델이 디지털 에이전트 형태의 지능형 하드웨어와 통합될 것이며, 구체화된 지능의 형태로 디지털 세계에서 물리적 세계로 들어갈 것입니다. 동시에 대형 모델의 기술적 수단은 다음과 같은 이점을 제공할 수 있습니다. 과학 연구를 위한 새로운 지식 표현 패러다임을 가속화하고 미시물리 세계의 법칙에 대한 인류의 탐구와 연구는 일반 인공 지능의 궁극적인 목표에 끊임없이 접근하고 있다”고 왕중위안(Wang Zhongyuan)은 말했다.
Zhiyuan 대형 모델 패밀리 버킷은 2024년 Zhiyuan 연구소 진행 보고서의 하이라이트입니다. 기자는 회의에서 Zhiyuan 대형 모델 계열 버킷이 대형 언어 모델 시리즈, 다중 모드 대형 모델 시리즈, 구체화된 지능 대형 모델 및 생물학적 컴퓨팅 대형 모델의 네 가지 대형 모델 연구 방향으로 구성되어 총 12개의 연구를 포함한다는 사실을 알게 되었습니다. Zhiyuan 언어 대형 모델 시리즈를 예로 들면, 이 방향에는 두 가지 대형 모델 연구, 즉 세계 최초의 저탄소 단일체 조밀도 언어 모델 Tele-FLM-1T와 일반 언어 벡터 모델 BGE(BAAI General Embedding) 시리즈가 포함됩니다. .
"대형 모델 훈련에서 높은 컴퓨팅 전력 소비 문제에 대응하기 위해 Zhiyuan 연구소와 China Telecom 인공 지능 연구소 (TeleAI)가 모델 성장 등 핵심 기술을 기반으로 세계 최초의 저탄소 단량체 밀도 조를 공동 개발하고 출시했습니다. 언어 모델 Tele-FLM-1T는 100억급 52B 버전, 1000억급 102B 버전과 함께 Tele-FLM 시리즈 모델을 구성하고 있습니다.” Tele-FLM 시리즈 모델의 관련 사업이 기자들에게 말했습니다. Tele-FLM 시리즈 모델은 112대의 A800 서버를 기반으로 업계 일반 훈련 방식의 컴퓨팅 전력 자원의 단 9%만으로 저탄소 성장을 달성한 것으로 알려졌습니다. 3개 모델의 훈련을 완료하는 데 4개월이 걸렸습니다. 총 2.3Ttokens이며 100억 밀도 모델 Tele-FLM-1T를 성공적으로 훈련했습니다. "전체 모델 훈련 프로세스는 조정과 재시도가 전혀 없으며 컴퓨팅 성능 효율성이 높고 모델 수렴과 안정성이 우수합니다. 현재 TeleFLM 시리즈 모델은 핵심 기술(성장 기술, 최적의 하이퍼파라미터)을 갖춘 버전 52B에서 완전히 오픈 소스화되었습니다. 예측), 학습 세부정보(손실 곡선, 최적 하이퍼파라미터, 데이터 비율 및 G radNorm 등)은 모두 오픈 소스입니다. 오픈 소스 기술이 대규모 모델 커뮤니티에 유익한 영향을 미칠 수 있기를 바랍니다. Tele-FLM-1T 버전이 곧 오픈 소스로 제공될 수 있기를 바랍니다. 커뮤니티가 조밀한 모델을 훈련하고 수조 모델 훈련의 어려움과 기타 문제를 피할 수 있는 탁월한 초기 매개변수입니다.”라고 담당자는 말했습니다.
Zhiyuan Research Institute에서 독립적으로 개발한 범용 의미 벡터 모델 BGE 시리즈는 검색 강화 RAG 기술을 기반으로 하며, 이는 데이터 간의 정확한 의미 일치를 달성하고 대규모 모델에서 외부 지식 호출을 지원할 수 있습니다. "2023년 8월부터 BGE 모델 시리즈는 세 번의 반복을 거쳐 중국어 및 영어 검색, 다국어 검색, 정제된 검색의 세 가지 작업에서 업계 최고의 성능을 달성했습니다. 포괄적인 기능은 OpenAI, 유사한 현재 Google, Microsoft, Cohere 및 기타 기관의 모델을 다운로드할 수 있습니다. 국내 AI 모델 1위로 HuggingFace, Langchain, LlamaIndex 등 국제 주류 AI 개발 프레임워크와 Tencent, Huawei, Alibaba, Byte, Microsoft, Amazon 등 주요 클라우드 서비스 제공업체에 통합되어 제공됩니다. 시맨틱 벡터 모델 BGE 시리즈 관련 사업 담당자가 기자들에게 말했다.
전체적으로 Zhiyuan 연구소는 대형 모델 기술 개발을 촉진하는 데 상당한 진전을 이루었습니다. '대형 모델 패밀리 버킷'과 오픈 소스 전략은 AI 분야의 혁신과 발전을 더욱 촉진할 것이며 지속적인 관심을 받을 가치가 있습니다. Downcodes의 편집자는 앞으로 더욱 획기적인 결과를 기대합니다.