Проверено 13.09.2024 ✅ (этот проект разработан на платформе Lightning AI, работая на графическом процессоре L40)
Суммизатор видеоролика -это система, управляемая AI, которая обрабатывает видеоролики, извлекает ключевые кадры и генерирует подробные аннотации. Основанная на тонкой настраиваемой модели Флоренции-2-языка (VLM), специально обученной набору данных SPHAR, она подчеркивает заметные события, действия и объекты в видеозаписи и регистрирует их для легкого обзора и дальнейшего анализа.
Тонко настроенную модель можно найти по адресу: kndrvitja/florence-sphar-finetune-2.
Смотрите инструмент в действии ниже!
Суммизация видео с AI
Автоматически извлекать кадры из видео наблюдения и генерировать аннотации, которые отражают действия, взаимодействия, объекты и необычные события. Аннотации хранятся в базе данных SQLite для легкого поиска.
Обработка кадров в реальном времени
Используя асинхронные потоки, система эффективно обрабатывает видео кадры, позволяя анализировать в реальном времени при минимизации узких мест производительности. Он регистрируется каждую секунду, обеспечивая легкую отладку и проверку.
Тонко настроенный Florence-2 VLM для набора данных SPHAR
Процесс суммирования питается от тонкой настройки Florence-2 VLM, специально обученного набору данных SPHAR. Эта модель оптимизирована для обнаружения и описания специфических для наблюдения событий с более высокой точностью.
Интерактивный интерфейс с двигателем Gradio
Взаимодействуйте с журналами наблюдения через веб-интерфейс на основе Gradio. Вы можете указать диапазоны времени, и система будет извлекать, суммировать и анализировать аннотированные журналы, предоставляя подробную информацию о видеозаписи в течение выбранного периода с использованием API OpenAI. Эта функциональность может быть расширена для использования передовых моделей, таких как Gemini, что позволяет более эффективно обрабатывать более длинные контекстные видеоролики и предоставить более полное обобщение видео в течение расширенных сроков.
Извлечение кадра :
Кадры извлекаются через регулярные промежутки времени из видеофайлов наблюдения с использованием OpenCV.
Аннотация с Двигательными Эй :
Каждый кадр анализируется тонкой настроенной моделью Флоренции-2, создавая проницательные аннотации о сцене.
Хранение данных :
Аннотации и связанные с ними данные кадров хранятся в базе данных SQLite, готовых к будущему анализу.
Интерфейс Gradio : система позволяет пользователям без особых усилий журналы наблюдения за вопросами, предоставляя определенный временной диапазон и адаптированные подсказки. Он извлекает, суммирует и анализирует соответствующие видеозаписи, предлагая краткие идеи
git clone https://github.com/Ravi-Teja-konda/Surveillance_Video_Summarizer.git cd Surveillance_Video_Summarizerpip install -r requirements.txtМодель и процессор
Система использует модель Florence-2-Language Language, настраиваемую для набора данных SPHAR. Тонко настроенную модель можно найти в Kndrvitja/Florence-Sphar-Finetune-2.
Убедитесь, что у вас есть ваш ключ API Openai, хранящийся в файле .env по мере необходимости.
Путь базы данных
Во -первых, запустите извлечение кадра:
python surveillance_video_summarizer.pyДалее взаимодействуйте с интерфейсом Gradio для анализа журналов:
python surveillance_log_analyzer_with_gradio.pyОтсюда вы можете использовать интерфейс Gradio для запроса конкретных периодов видеозаписей и получить аннотированные резюме на основе вашего ввода. Вы можете запросить систему для конкретных действий, заметных событий или общих резюме деятельности. Предоставьте временной диапазон и вашу подсказку запроса, и система вернет соответствующие журналы
Мы планируем улучшить способность модели обнаружить более сложные события, такие как нарушения трафика, подозрительное поведение и другие сценарии слежения.
В будущем будет планировать поддержку видеопотоков в реальном времени для немедленного извлечения и анализа кадров, когда видео захватывается.
Взносы приветствуются! Не стесняйтесь отправлять запрос на привлечение.
Если вы найдете этот проект полезным, рассмотрите возможность с участием его в главной роли на GitHub, чтобы помочь другим узнать его!
Вдохновленный достижениями в моделях языка зрения, таких как Флоренция-2.
Этот проект лицензирован по лицензии Apache 2.0.