人工知能 (AI) は将来どのようになるのでしょうか?単純なコマンドだけで複雑なタスクを理解して実行できることを想像してください。また、ユーザーの表情や動きを視覚的に捉えて感情状態を判断することもできます。これはもはやハリウッドのSF映画の一場面ではなく、徐々に現実になりつつある「マルチモーダルAI」です。
米国のウェブサイト「Forbes」の最近の報道によると、Metaverse Platform Company、OpenAI、Google などの大手企業はいずれも独自のマルチモーダル AI システムを立ち上げ、そのようなシステムの研究開発への投資を増やす努力を惜しまず、努力を続けています。さまざまなモデルを改善し、動的コンテンツ出力の精度を向上させ、AI とユーザー間のインタラクティブなエクスペリエンスを向上させます。
マルチモーダル AI はパラダイムの変化を示します。それは多くの業界の様相を大きく変え、デジタル世界を再構築するでしょう。
AI に「多感覚」機能を与える
人間はどのようにして世界を理解しているのでしょうか?私たちは視覚、聴覚、触覚などの複数の感覚を利用して、無数の情報源から情報を受け取ります。人間の脳は、これらの複雑なデータ パターンを統合して、現実の鮮やかな「絵」を描きます。
IBM の公式 Web サイトでは、マルチモーダル AI を次のように定義しています。テキスト、画像、音声、ビデオなどの形式での入力を含む、複数のモダリティ (データ型) からの機械学習モデルを統合して処理できます。これは、AI に一連の感覚を与えて、入力情報をさまざまな角度から認識して理解できるようにするようなものです。
さまざまなモダリティにわたって情報を理解し、作成するこの能力は、特定のデータ ソースの統合と処理に重点を置いていた以前の単一モーダル AI を上回り、大手テクノロジー大手の支持を獲得しました。
今年のモバイル通信カンファレンスで、クアルコムは自社が開発した大規模なマルチモーダル モデルを初めて Android 携帯電話に導入しました。ユーザーは写真や音声などの情報を入力する際にも、AIアシスタントとスムーズにコミュニケーションを図ることができます。たとえば、ユーザーは食べ物の写真を撮り、AI アシスタントに「これらの材料は何ですか?」と尋ねることができます。どんな料理が作れるの?各料理のカロリーはどれくらいですか? AIアシスタントが写真情報をもとに詳しく回答します。
OpenAIは今年5月、テキスト、音声、画像の任意の組み合わせの入出力をサポートするマルチモーダルモデル「GPT-4o」をリリースした。その後、Google も翌日には最新のマルチモーダル AI 製品 Gemini 1.5 Pro を発売しました。
9 月 25 日、Metaverse Platform Company は最新のオープンソース大規模言語モデル Llama 3.2 をリリースしました。同社CEOのマーク・ザッカーバーグ氏は基調講演で、これはテキストとビジュアルデータを同時に処理できる同社初のオープンソースマルチモーダルモデルであり、より複雑なアプリケーションシナリオの理解におけるAIの大幅な進歩を示していると述べた。
さまざまな分野で静かに変革を推進
マルチモーダル AI は、多くの分野の様相を静かに変えています。
ヘルスケア分野では、IBMの「Watson Health」が患者の画像データ、診療録テキスト、遺伝子データを総合的に分析することで、医師による病気のより正確な診断を支援し、医師が患者に合わせた治療計画を立てることを強力にサポートしている。
クリエイティブ産業も変革を迎えています。デジタル マーケティングの専門家や映画制作者は、このテクノロジーを活用してカスタマイズされたコンテンツを作成しています。想像してみてください。単純なプロンプトやコンセプトだけで、AI システムが魅力的な脚本を書き、ストーリーボード (視覚的なストーリーを形成するために一緒に配置された一連のイラスト) を生成し、サウンドトラックを作成し、さらには予備的なシーン カットを作成することさえできます。
教育とトレーニングの分野でも、マルチモーダル AI の助けを借りてパーソナライズされた学習に移行しています。米国ニュートン社が開発したアダプティブラーニングプラットフォームは、マルチモーダルAIを活用して生徒の学習行動や表情、音声を深く分析し、指導内容や難易度をリアルタイムに調整できる。実験データによると、この方法により生徒の学習効率が 40% 向上することが示されています。
顧客サービスも、マルチモーダル AI システムの興味深いアプリケーションの 1 つです。チャットボットはテキスト クエリに応答できるだけでなく、顧客の声の調子を理解し、表情を分析し、適切な言語と視覚的な手がかりで応答することもできます。このより人間らしいコミュニケーションは、企業が顧客とやり取りする方法に革命をもたらすことを約束します。
テクノロジー倫理の課題はまだ克服する必要がある
ただし、マルチモーダル AI の開発は多くの課題にも直面しています。
AIコンサルティング会社Hidden Spaceの創設者ヘンリー・アイデル氏は、マルチモーダルAIの力は複数のデータタイプを統合できる能力にあると述べた。ただし、これらのデータを効果的に統合する方法は依然として技術的な問題です。
さらに、マルチモーダル AI モデルは運用中に大量のコンピューティング リソースを消費することが多く、間違いなくアプリケーション コストが増加します。
さらに注目すべきは、マルチモーダル データにはより多くの個人情報が含まれることです。マルチモーダル AI システムが顔、声、感情状態さえも簡単に識別できる場合、個人のプライバシーが確実に尊重され、保護されるようにするにはどうすればよいでしょうか?そして、それらが「ディープフェイク」やその他の誤解を招くコンテンツの作成に使用されるのを防ぐための効果的な対策をどのように講じることができるのでしょうか?これらはすべて熟考する価値のある質問です。