2024 年 12 月 18 日に開催された FORCE Motive Power Conference で、Volcano Engine はビーンバッグ大型モデル ファミリーの包括的なアップグレードをリリースしました。最も目を引くのは、新しい視覚的理解モデルの発売です。このモデルはテキストと画像の同時入力をサポートし、より強力な認識、理解、推論能力を備え、非常に競争力のある価格でユーザーにサービスを提供します。このアップグレードは、Beanbao 大型モデルのさまざまな分野での応用能力を向上させるだけでなく、視覚理解テクノロジーが開発の新たな段階に入ったことを示し、より便利で効率的な AI ソリューションを企業や開発者にもたらします。
2024 年 12 月 18 日に開催された Volcano Engine FORCE Motive Power Conference で、Volcano Engine はビーンバッグ大型モデル ファミリの包括的なアップグレードを発表し、まったく新しい視覚的理解モデルをリリースしました。

Volcano Engineの社長であるTan Dai氏は、Doubaoモデルのトークンの1日の平均使用量が過去数カ月で急速に増加し、5月のローンチと比較して33倍の4兆以上に達したと述べた。この増加傾向は、複数のアプリケーション シナリオで大型ビーンバッグ モデルが広く使用されていることを示しています。

今回、Volcano Engine は視覚理解モデルを開始しました。これにより、ユーザーはテキストと画像の質問を同時に入力でき、モデルは包括的に理解して正確な回答を与えることができます。この革新により、アプリケーション開発プロセスが大幅に簡素化され、より多くのシナリオで大規模モデルの可能性が有効になります。
視覚理解モデルは、より強力なコンテンツ認識機能を備えており、画像内のオブジェクトのカテゴリや形状などの基本要素を識別するだけでなく、オブジェクト間の関係、空間レイアウト、シーンの全体的な意味も理解できます。たとえば、影の識別、自然の知識の識別などです。

視覚的理解モデルは、より強力な理解力と推論機能を備えているため、コンテンツをより適切に識別できるだけでなく、認識されたテキストや画像情報に基づいて、グラフィック推論や物理的推論などの複雑な論理計算を実行することもできます。

また、画像情報に基づいて画像の内容をより詳細に記述することができる、より繊細な視覚的記述能力も備えており、画像作成、画像詩の作成など、さまざまな文体を創作することも可能です。

Doubao 視覚理解モデルは、教育、観光、電子商取引などの多くの分野で幅広い応用の可能性を示しています。たとえば、教育では、このモデルは学生が自分の構成や一般的な科学の知識を最適化するのに役立ちます。また、モデルは観光客に外国のメニューの翻訳や、電子商取引マーケティングにおける建築の背景知識の説明を提供することができます。商品の特徴を詳しく説明し、広告効果を高めます。
視覚的理解モデルの使用コストも非常に手頃で、1,000 トークンあたりの価格は 0.003 元で、業界平均価格より 85% 安くなります。この価格レベルでは、1 ドルあたり最大 284 枚の 720P 画像を処理でき、視覚理解技術が「センチ時代」に突入することになります。さらに、Volcano Engine は企業や開発者に最大 15,000 の初期トラフィック サポートを提供し、このテクノロジーをより効果的に活用できるようにします。

このカンファレンスで、Volcano Engine は視覚的に理解できるモデルをリリースしただけでなく、他の複数のモデルもアップグレードしました。 Doubao Universal Model Pro の総合的なタスク処理能力は、5 月と比較して 32% 向上しており、推論、指示に従い、コーディング、数学などの分野でも大幅な改善が見られました。同時にビーンバッグとビデオ生成モデルは2025年1月に一般公開され、企業は利用予約が可能となる。


企業の情報取得および検索推奨機能を向上させるために、Volcano Engine はグローバル AI 検索サービスも開始し、企業が情報とユーザーのニーズをより適切に結びつけ、さまざまな業界のインテリジェントな変革を促進できるようにしました。
ハイライト:
Doubao Big Modelの1日の平均トークン使用量は4兆に達し、5月と比較して33倍に増加しました。
新たに提供開始した視覚理解モデルは、テキストと画像の同時入力に対応しており、教育、観光、電子商取引などの分野に適している。
トークン 1,000 個あたりの使用コストはわずか 0.003 元で、業界平均価格よりも大幅に低くなっています。
つまり、今回Volcano Engineがリリースした大型ビーンバッグモデルのアップグレードと新しい視覚的理解モデルは、人工知能分野における同社の継続的な革新とユーザーニーズの深い理解を実証し、さまざまな業界のインテリジェントな変革に強力な技術サポートを提供します。