13.09.2024のチェック(このプロジェクトは、L40 GPUで実行されているLightning AIプラットフォームでテストされました)
Surveillance Video Summarizerは、監視ビデオを処理し、キーフレームを抽出し、詳細な注釈を生成するAI駆動型システムです。 Spharデータセットで特別に訓練された微調整されたFlorence-2 Vision-Language Model(VLM)を搭載したビデオ映像内の顕著なイベント、アクション、およびオブジェクトを強調し、簡単なレビューとさらなる分析のためにそれらを記録します。
微調整されたモデルは、Kndrvitja/Florence-Sphar-Finetune-2にあります。
以下の動作中のツールをご覧ください!
AI搭載のビデオ要約
監視ビデオからフレームを自動的に抽出し、アクション、インタラクション、オブジェクト、および異常なイベントをキャプチャする注釈を生成します。注釈は、簡単に取得できるようにSQLiteデータベースに保存されます。
リアルタイムフレーム処理
非同期スレッドを利用することにより、システムはビデオフレームを効率的に処理し、リアルタイム分析を可能にしながらパフォーマンスのボトルネックを最小限に抑えます。毎秒ログを記録し、簡単なデバッグと検証を保証します。
Spharデータセット用の微調整されたFlorence-2 VLM
要約プロセスは、微調整されたフィレンツェ-2 VLMを駆動し、特にスパールデータセットで訓練されています。このモデルは、より高い精度で監視固有のイベントを検出および説明するために最適化されています。
グラデーション駆動のインタラクティブインターフェイス
グラデーションベースのWebインターフェイスを介して、監視ログと対話します。時間範囲を指定でき、システムは注釈付きログを取得、要約、分析し、OpenAI APIを使用して選択した期間にわたってビデオ映像に関する詳細な洞察を提供します。この機能は、Geminiなどの高度なモデルを活用して、より長いコンテキスト動画のより効率的な処理を可能にし、延長された時間枠でより包括的なビデオ要約を提供できるように拡張できます。
フレーム抽出:
フレームは、opencvを使用して監視ビデオファイルから定期的に抽出されます。
AI駆動の注釈:
各フレームは、微調整されたフィレンツェ-2ビジョン言語モデルによって分析され、シーンに関する洞察に富んだ注釈が生成されます。
データストレージ:
注釈とそれに関連するフレームデータは、将来の分析の準備ができて、SQLiteデータベースに保存されます。
グレーディオインターフェイス:システムにより、ユーザーは特定の時間範囲とカスタマイズされたプロンプトを提供することにより、サーベイランスログを簡単に照会できます。関連するビデオ映像を取得、要約、分析し、簡潔な洞察を提供します
git clone https://github.com/Ravi-Teja-konda/Surveillance_Video_Summarizer.git cd Surveillance_Video_Summarizerpip install -r requirements.txtモデルとプロセッサ
このシステムは、Spharデータセットに微調整されたフィレンツェ-2ビジョン言語モデルを利用しています。微調整されたモデルは、Kndrvitja/Florence-Sphar-Finetune-2で見つけることができます。
必要に応じて、OpenAI APIキーを.ENVファイルに保存していることを確認してください。
データベースパス
まず、フレーム抽出を実行します。
python surveillance_video_summarizer.py次に、ログ分析のためにグレードインターフェイスと対話します。
python surveillance_log_analyzer_with_gradio.pyここから、Gradio Interfaceを使用して、ビデオ映像の特定の期間を照会し、入力に基づいて注釈付きの要約を取得できます。特定のアクション、注目すべきイベント、または一般的なアクティビティの概要については、システムを照会できます。時間範囲とクエリプロンプトを提供すると、システムは関連するログを返します
より多くのデータでフィレンツェ-2をトレーニングすることにより、交通違反、疑わしい行動、その他の微妙な監視シナリオなど、より複雑なイベントを検出するモデルの機能を強化する予定です
将来的には、ビデオがキャプチャされているときに、即時のフレーム抽出と分析のためにリアルタイムビデオストリームをサポートする予定です。
貢献は大歓迎です!プルリクエストをお気軽に送信してください。
このプロジェクトが便利だと思う場合は、他の人がそれを発見するのを助けるためにGitHubで主演することを検討してください!
Florence-2のようなビジョン言語モデルの進歩に触発されました。
このプロジェクトは、Apacheライセンス2.0に基づいてライセンスされています。