Поисковая система видеоизоля (AVSE)
Поисковая система видео, оснащенная последними инструментами в искусственном интеллекте
Почему?
С ростом короткого содержания формы с Tiktok и YouTube. Гораздо больше знаний в видео, чем когда -либо прежде. Поиск конкретных ответов в миллионах видео может быть сложно для любого человека. Таким образом, вопрос в том, есть ли Google, который индексирует текст на веб -сайте, облегчая поиск в зависимости от контекста вашего вопроса, почему нет Google, который индексирует видеоконтент, облегчая пользователям находить ответы в них.
Поэтому я создал это, чтобы продемонстрировать, что это очень возможно с помощью технологий и инфраструктуры, которые легко доступны.
Технический стек
- Supbase (PostgreSQL, PG_VECTOR, AUTH)
- Hasura (слой graphql, разрешения)
- Fly (хостинг Хасиры)
- Jigsawstack (резюме AI, чат AI)
- Vercel (NextJs Hosting, Functions без сервера)
Как это работает?
Хранение видео
- Видео транскрипция извлечена из видео на YouTube
- Транскрипции составлены вместе с временной меткой на основе https://huggingface.co/supabase/gte-small размер измерения
- Хранится в Postgres DB с использованием расширения и индексации PG_Vector
Идет поиск
- Поиск вектора косинуса по всему БД на основе вопроса, чтобы вернуть результаты экологически чистых результатов
- Каждое видео в результате выполнит второй поиск, чтобы найти связанные куски видео на вопрос
- Куски будут нанесены на карту обратно в стенограмму временем, чтобы воспроизвести релавантный клип видео
Сводка и чат
- Транскрипция видео будет отправлена в API JigsawStack для краткого изложения как в форме точки, так и в тексте
- Чаты будут созданы и управляются API JigsawStack, связанные куски видео будут отправлены на сеанс чата на основе вопросов
Что следует отметить, чтобы разместить его самостоятельно
- Вам понадобится платная учетная запись Supabase & Fly.io, если вы планируете индексировать тысячи миллионов видео
-
admin/config/fly.toml состоит из конфигураций, необходимых для развертывания Hasura для летания -
admin/migration свалка, которую вы можете использовать для воссоздания схемы через Hasura CLI - Hasura init Migration
admin hasura init migration --endpoint <hasuraurl.fly.app> --admin-secret <admin_secret> - Скрипт
admin/indexChannelVideos.ts для индексации большого количества видео локально с каналами YouTube -
.env.example Ключи, необходимые для работы для проекта
Часто задаваемые вопросы
Разве YouTube это не делает?
- Не совсем, YouTube не ищет транскрибированную аудио видео видео, но вместо этого опирается на письменный контент загрузчика, такой как заголовок, описание, теги. В то время как весь аудиоконтент не индикация.
Как этот стек будет обрабатывать миллионы видео?
- Он может обрабатывать миллионы, но, возможно, не миллиарды/триллионы с этой текущей настройкой. Который требует больше копий, экземпляров и особенно $
Что дальше?
- Добавить тикток в качестве источника видео
- Добавить https://replicate.com/vaibhavs10/incretable-fast-wisper, чтобы транскрибировать звук
- Значительно повысить производительность запроса
- Страница для просмотра всех активных чатов