13.09.2024 ✅ ✅에서 확인 (이 프로젝트는 L40 GPU로 실행되는 Lightning AI 플랫폼에서 테스트되었습니다)
감시 비디오 요약자는 감시 비디오를 처리하고 주요 프레임을 추출하며 상세한 주석을 생성하는 AI 구동 시스템입니다. Sphar 데이터 세트에서 특별히 교육 된 미세 조정 된 Florence-2 Vision-Language Model (VLM) 으로 구동되는 비디오 장면 내에서 주목할만한 이벤트, 작업 및 객체를 강조하고 검토 및 추가 분석을 쉽게 검토 할 수 있습니다.
미세 조정 된 모델은 Kndrvitja/Florence-Sphar-Finetune-2에서 찾을 수 있습니다.
아래의 도구를 참조하십시오!
AI 기반 비디오 요약
감시 비디오에서 프레임을 자동으로 추출하고 동작, 상호 작용, 객체 및 비정상적인 이벤트를 포착하는 주석을 생성합니다. 주석은 쉽게 검색되도록 SQLITE 데이터베이스에 저장됩니다.
실시간 프레임 처리
비동기 스레딩을 사용하여 시스템은 비디오 프레임을 효율적으로 처리하여 실시간 분석을 허용하면서 성능 병목 현상을 최소화합니다. 매 순간마다 로그를 작성하여 쉽게 디버깅 및 검증을 보장합니다.
Sphar 데이터 세트 용 미세 조정 된 Florence-2 VLM
요약 프로세스는 미세 조정 된 Florence-2 VLM, 특히 Sphar 데이터 세트에서 교육을받은 것으로 구동됩니다. 이 모델은 더 높은 정확도로 감시 관련 이벤트를 감지하고 설명하도록 최적화되었습니다.
Gradio 구동 인터랙티브 인터페이스
Gradio 기반 웹 인터페이스를 통해 감시 로그와 상호 작용하십시오. 시간 범위를 지정할 수 있으며 시스템은 주석이 달린 로그를 검색, 요약 및 분석하여 OpenAI API를 사용하여 선택한 기간 동안 비디오 영상에 대한 자세한 통찰력을 제공합니다. 이 기능은 Gemini와 같은 고급 모델을 활용하여 더 긴 컨텍스트 비디오를보다 효율적으로 처리하고 확장 된 기간 동안보다 포괄적 인 비디오 요약을 제공 할 수 있도록 확장 될 수 있습니다.
프레임 추출 :
프레임은 OpenCV를 사용한 감시 비디오 파일에서 정기적으로 추출됩니다.
AI 기반 주석 :
각 프레임은 미세 조정 된 Florence-2 Vision-Language 모델로 분석하여 장면에 대한 통찰력있는 주석을 생성합니다.
데이터 저장 :
주석 및 관련 프레임 데이터는 SQLite 데이터베이스에 저장되어 향후 분석을위한 준비가됩니다.
Gradio 인터페이스 : 시스템을 통해 사용자는 특정 시간 범위와 맞춤형 프롬프트를 제공하여 감시 로그를 쉽게 쿼리 할 수 있습니다. 관련 비디오 장면을 검색하고 요약하고 분석하여 간결한 통찰력을 제공합니다.
git clone https://github.com/Ravi-Teja-konda/Surveillance_Video_Summarizer.git cd Surveillance_Video_Summarizerpip install -r requirements.txt모델 및 프로세서
이 시스템은 SPHAR 데이터 세트에 미세 조정 된 Florence-2 Vision-Language 모델을 사용합니다. 미세 조정 된 모델은 Kndrvitja/Florence-Sphar-Finetune-2에서 찾을 수 있습니다.
필요에 따라 OpenAI API 키를 .env 파일에 저장해야합니다.
데이터베이스 경로
먼저 프레임 추출을 실행하십시오.
python surveillance_video_summarizer.py다음으로 로그 분석을 위해 Gradio 인터페이스와 상호 작용하십시오.
python surveillance_log_analyzer_with_gradio.py여기에서 Gradio 인터페이스를 사용하여 특정 비디오 영상 기간을 쿼리하고 입력에 따라 주석이 달린 요약을 검색 할 수 있습니다. 특정 조치, 주목할만한 이벤트 또는 일반 활동 요약에 대해 시스템을 쿼리 할 수 있습니다. 시간 범위와 쿼리 프롬프트를 제공하면 시스템이 관련 로그를 반환합니다.
우리는 더 많은 데이터로 Florence-2를 교육하여 트래픽 위반, 의심스러운 행동 및 기타 미묘한 감시 시나리오와 같은보다 복잡한 이벤트를 감지 할 수있는 모델의 기능을 향상시킬 계획입니다.
미래에는 비디오가 캡처 될 때 즉각적인 프레임 추출 및 분석을 위해 실시간 비디오 스트림을 지원할 계획입니다.
기부금을 환영합니다! 풀 요청을 제출하십시오.
이 프로젝트가 유용하다고 생각되면 Github에 출연하여 다른 사람들이 그것을 발견 할 수 있도록 고려하십시오!
Florence-2와 같은 비전 언어 모델의 발전에서 영감을 얻었습니다.
이 프로젝트는 Apache 라이센스 2.0에 따라 라이센스가 부여됩니다.