画像検索の分野では、目的の画像をいかに迅速かつ正確に見つけるかが常に熱い研究テーマとなっています。従来のテキストベースの検索方法では、スケッチや芸術的な絵画などの多様なクエリ スタイルに対処することが困難です。北京大学のYuan Li研究グループは、南洋理工大学および清華自動化研究所の研究者と協力して、「ユニバーサルスタイル検索」という画期的な手法を提案し、異なるスタイルの画像の正確な検索を実現するための対応するFreestyleRetフレームワークを構築しました。画像検索技術の進歩により、検索効率と精度が大幅に向上し、より便利でスマートな画像検索体験をユーザーに提供しました。
デジタル時代において、私たちは毎日大量の画像を扱います。しかし、スケッチ、絵画、またはぼやけた写真からでも、必要な写真をすぐに見つけることができたらどんなに素晴らしいだろうかと考えたことはありますか? 北京大学のユアン氏と南洋理工の研究者らによる李研究グループ。大学と清華自動化研究所は、スケッチや芸術的な絵画など、さまざまなクエリ スタイルに対応できるまったく新しい画像検索テクノロジーを私たちにもたらしました。低解像度の画像でも正確に照合できます。
この技術の核となるのが、彼らが提案した「ユニバーサルスタイル検索」手法です。従来のテキストベースの画像検索とは異なり、新しい方法では、複数のクエリ スタイルや、スケッチとテキスト、アート ペインティングとテキストなどの組み合わせたクエリを処理できます。これにより、検索の柔軟性が向上するだけでなく、検索の精度も大幅に向上します。

この目標を達成するために、研究チームは DSR (Diverse-Style Retrieval Dataset) と ImageNet-X という 2 つの独自のデータセットを構築しました。 DSR には 10,000 枚の自然画像と 4 つの検索スタイルの対応するテキストが含まれており、ImageNet-X にはさまざまなスタイルの注釈が付いた 100 万枚の自然画像が含まれています。これら 2 つのデータ セットを確立すると、新しい手法のための豊富なトレーニングとテストのリソースが提供されます。
さらに興味深いのは、研究チームが FreestyleRet と呼ばれるフレームワークも提案していることです。このフレームワークは、画像スタイルを抽出して検索モデルに注入することにより、既存のモデルがさまざまな種類の検索ベクトルと互換性がないという問題を効果的に解決します。 FreestyleRet フレームワークは、スタイル抽出モジュール、スタイル空間構築モジュール、スタイルにインスピレーションを得たヒント微調整モジュールの 3 つの主要モジュールで構成されています。これらのモジュールは連携して、検索モデルがさまざまなスタイルのクエリ ベクトルを理解して処理できるようにします。

実験では、FreestyleRet フレームワークは優れたパフォーマンスを実証しました。 DSR および ImageNet-X データセットで Recall@1 および Recall@5 のパフォーマンスが大幅に向上するだけでなく、複数の異なるスタイルのクエリ ベクトルを処理する際に優れた汎化機能と拡張性も示します。
この研究の結果は一般に公開されており、詳細な論文は arXiv で閲覧できます。同時に、関連するコードとデータセットもオープンソース化され、関心のある研究者や開発者によるさらなる探索と応用が可能になりました。
これは画像検索の分野における技術的な進歩であるだけでなく、私たち一人ひとりの日常生活においても大きな利便性をもたらします。将来、私たちがインスピレーションを求めているときでも、学術研究を行っているときでも、日常の娯楽をしているときでも、必要な画像リソースをより迅速かつ正確に見つけられるようになると想像してみてください。これはあらゆることを可能にするテクノロジーの力です。
論文アドレス: https://arxiv.org/pdf/2312.02428
「ユニバーサルスタイル検索」に基づくこの画像検索技術は、将来の画像検索に新たな可能性をもたらし、そのオープンソースコードとデータセットは、この分野のさらなる発展を促進し、より多くのアプリケーションシナリオに技術サポートを提供し、画像検索をより便利にするでしょう。効率的な画像検索を実現します。