北京智譜華章科技有限公司於2025年1月16日發布了一系列重磅更新,包括全新端到端模型GLM-Realtime以及GLM-4-Air、GLM-4V-Plus等模型的升級版本,所有模型均已上線bigmodel.cn平台。此次更新涵蓋了語言、語音、圖像和視訊等多個模態,展現了智譜在多模態大模型技術領域的深厚積累和創新能力,並特別推出了Flash全模態免費模型,旨在降低大模型應用門檻,推動大模型技術普惠化發展。
北京智譜華章科技有限公司於2025年1月16日宣布推出一系列新模型,並在bigmodel.cn上線。繼8月推出「智譜清言」後,公司在語言、語音、影像與影片的理解與生成領域深入探索,推出了GLM-Voice、GLM-4V、CogView、CogVideoX等多模態模型。
這次發布的全新端對端模型GLM-Realtime,實現了低延遲的視訊理解與語音交互,融入了清唱功能,並支援長達2分鐘的記憶及Function Call功能。該公司也同步升級了GLM-4-Air和GLM-4V-Plus模型,致力於提供業界最強效能和性價比的語言模型解決方案。智譜始終致力於以先進的大模型技術回饋社會,特別設立了Flash全模態免費模型,涵蓋語言、文生圖、文生影片及影像理解等多個場景,協助開發者輕鬆實現應用創新。

GLM-Realtime在視訊通話上具備2分鐘的內容記憶能力,語音互動方面創新地實現了清唱功能,讓大模型具備在對話中的歌唱能力。該公司將Realtime API整合到智慧眼鏡和陪伴娃娃中,以便用戶體驗近乎即時的智慧助理互動。 Realtime進一步支援Function Call功能,能夠依靠自身知識與能力,靈活地呼叫外部知識與工具,拓展到更廣泛的商業場景。 GLM-Realtime API已上線智譜開放平台bigmodel.cn,現階段免費呼叫。
GLM-4-Air自上線以來以高性價比受開發者歡迎,此次全面升級為GLM-4-Air-0111,透過優化訓練資料和流程,在某些維度性能接近規模更大的GLM-4- Plus,同時模型價格降至原來的50%,降低大模型應用門檻。視覺理解模型GLM-4V-Plus也全面升級,新版本在多個公開榜單上效果顯著提升,支援變解析度功能,適應不同尺寸影像輸入,小圖場景下顯著降低token消耗,支援4K超清影像及極致長寬比影像的無損識別,具備長達2小時的影片理解能力,為長影片理解與分析提供高效精準解決方案。
智譜致力於大模型普惠,為助力開發者創新,專門設置了針對全社會免費開放的Flash系列普惠模型API。作為業界首個全模態的免費系列模型,開發者可免費調用語言、多模態理解、多模態生成功能。近期Flash系列將全面升級,成員包括語言模型GLM-4-Flash、影像理解模型GLM-4V-Flash、影像生成模型CogView-3-Flash、視訊生成模型CogVideoX-Flash。
智譜華章此次發布的模型升級和全新模型,不僅展現了其在人工智慧領域的強大技術實力,也體現了其推動大模型技術普惠化的決心,為開發者和用戶提供了更便捷、更強大的AI工具,值得期待未來更多創新應用的出現。