この記事は、第6回北京知源会議で知源研究所所長の王忠源氏が発表した2024年の知源研究所進捗報告書について報告し、知源大型モデルファミリーバケットに焦点を当てています。このレポートは、言語、マルチモダリティ、身体性、生物学的コンピューティングの大規模モデルの分野におけるインテリジェントソース研究所の最新の研究結果と、そのオープンソース技術ベースのアップグレードとレイアウトを示しています。 Downcodes の編集者は、レポートの内容、特に Zhiyuan 大型モデルファミリーバケットの構成とそのコアテクノロジーを詳細に解釈します。

6月14日、知恵研究所主催の第6回「北京知恵会議」が中関村展示センターで開催された。今回の会議で、知源研究所所長の王忠元氏は2024年の知源研究所の進捗報告を行い、知源大型モデルファミリーバケットに焦点を当てた。
2024年のZhiyuan Research Institute進捗報告書で、Zhiyuan Research Instituteは、言語、マルチモダリティ、具現化、生物学的コンピューティングの大規模モデルにおける最先端の探索と研究の進捗状況、および大規模モデルのフルスタックオープンの反復アップグレードと開発を共有しました。ソーステクノロジーベースのテリトリーのレイアウト。 Zhiyuan Research Instituteによると、この段階の大規模言語モデルの開発は、一般的な人工知能の非常に核となる理解と推論能力をすでに備えており、大規模言語モデルをコアとして使用して他のモダリティを調整およびマッピングする技術的ルートを形成していますモデルには、予備的なマルチモーダルの理解と生成機能があります。しかし、これは人工知能が物理世界を認識し理解するための究極の技術的ルートではなく、モデルがネイティブのマルチモーダル拡張機能を備えて進化するように、マルチモーダル入出力を実現するための統合モデル パラダイムを採用する必要があります。世界モデルに。
「将来的には、大型モデルはデジタルエージェントの形でインテリジェントハードウェアと統合され、身体化された知性の形でデジタル世界から物理世界に参入するでしょう。同時に、大型モデルの技術的手段は、科学研究のための新たな知識表現パラダイムを実現し、微物理世界の法則の人類の探索と研究を加速し、汎用人工知能の最終目標に常に近づいています」と王忠源氏は述べた。
Zhiyuan 大型モデル ファミリー バケットは、この 2024 年の Zhiyuan Research Institute 進捗レポートのハイライトです。記者は会議で、Zhiyuan大規模モデルファミリーバケットが大規模言語モデルシリーズ、マルチモーダル大規模モデルシリーズ、身体化知能大規模モデル、生物学コンピューティング大規模モデルの4つの大規模モデル研究方向で構成され、合計12の研究で構成されていることを知りました。 Zhiyuan 言語の大規模モデル シリーズを例に挙げると、この方向には 2 つの大規模モデル 研究、世界初の低炭素単体稠密兆言語モデル Tele-FLM-1T と一般言語ベクトル モデル BGE (BAAI General Embedding) シリーズが含まれます。 。
「大規模モデルのトレーニングにおける高いコンピューティング電力消費の問題に対応して、Zhiyuan Research Institute と China Telecom Artificial Intelligence Research Institute (TeleAI) は、モデル成長などの主要技術に基づいて世界初の低炭素モノマー デンス トリリオンを共同開発し、発売しました」言語モデル Tele-FLM-1T は、100 億レベルの 52B バージョンと 1000 億レベルの 102B バージョンとともに、Tele-FLM シリーズのモデルを構成します。」 Tele-FLM シリーズモデルの関連事業者が記者団に語った。 Tele-FLM シリーズ モデルは、112 台の A800 サーバーに基づく業界の通常のトレーニング スキームの計算能力リソースのわずか 9% を使用して、3 つのモデルのトレーニングを完了するのに 4 か月かかったという低炭素成長を達成したと報告されています。合計 2.3Ttoken を使用し、10,000 億の高密度モデル Tele-FLM-1T のトレーニングに成功しました。 「モデルトレーニングプロセス全体はゼロ調整とゼロリトライであり、高い計算能力効率と優れたモデルの収束と安定性を備えています。現在、TeleFLMシリーズのモデルは、コアテクノロジー(成長テクノロジー、最適なハイパーパラメータ)を備えたバージョン52Bで完全にオープンソース化されています」予測)、トレーニングの詳細(損失曲線、最適なハイパーパラメータ、データ比率および G) radNorm など) はすべてオープン ソースであり、このオープン ソース テクノロジが大規模なモデル コミュニティに有益な影響を与えることが期待されています。コミュニティが兆密度のモデルをトレーニングし、兆モデルのトレーニングにおける収束の困難やその他の問題を回避するための優れた初期パラメータです」と担当者は述べています。
Zhiyuan Research Institute が独自に開発したユニバーサル セマンティック ベクトル モデルの BGE シリーズは、検索強化型 RAG テクノロジーに基づいており、データ間の正確なセマンティック マッチングを実現し、大規模モデルでの外部知識の呼び出しをサポートできます。 「2023 年 8 月以来、BGE モデル シリーズは 3 回の反復を経て、中国語と英語の検索、多言語の検索、洗練された検索の 3 つのタスクにおいて業界最高のパフォーマンスを達成しました。その包括的な機能は OpenAI よりも大幅に優れており、同様の機能を備えています」現在、Google、Microsoft、Cohere、その他の機関のモデルがダウンロードできます。国内の AI モデルでは第 1 位にランクされており、HuggingFace、Langchain、LlamaIndex などの国際的な主流の AI 開発フレームワークや、Tencent、Huawei、Alibaba、Byte、Microsoft、Amazon などの主要なクラウド サービス プロバイダーによって統合されており、以下を提供します。セマンティックベクトルモデルBGEシリーズの関連事業担当者は記者団にこう語った。
全体として、Zhiyuan Research Institute は大型モデル技術の開発促進において大きな進歩を遂げており、その「ビッグモデルファミリーバケット」とオープンソース戦略は AI 分野のイノベーションと開発をさらに促進するものであり、引き続き注目に値します。 Downcodes の編集者は、将来のさらなる画期的な結果を期待しています。