semantic image search for articles

semantic image search for articles

Другой исходный код

1.0.0

Скачать

Поиск семантического изображения с использованием мультимодальной модели Amazon Titan

Цифровые издатели постоянно ищут способы оптимизации и автоматизации своих рабочих процессов в медиа, чтобы генерировать и публиковать новый контент как можно быстрее, но без предварительного предварительного качества.

Добавление изображений для захвата сущности текста может улучшить опыт чтения. Методы машинного обучения могут помочь вам открыть такие изображения. «Поразительный образ - один из самых эффективных способов привлечения внимания аудитории и создания взаимодействия с вашей историей - но это также должно иметь смысл».

В этом проекте AWS-Samples вы видите, как вы можете использовать модели Amazon Titan Foundation, чтобы быстро понять статью и найти лучшие изображения для ее сопровождения. На этот раз вы генерируете внедрение непосредственно с изображения.

Ключевой концепцией в семантическом поиске являются встраиваемые. Встроение является численным представлением некоторого ввода - изображения, текста или обоих - в форме вектора. Если у вас есть много векторов, вы можете измерить расстояние между ними, а векторы, которые находятся близко на расстоянии, семантически похожи или связаны.

Amazon Bedrock-это полностью управляемый сервис, который предлагает выбор высокопроизводительных моделей фундамента (FMS) от ведущих компаний по искусственным технологиям, включая AI21 Labs, Anpropic, Cohere, Meta, Stability AI и Amazon с одним API, а также широким набором возможностей, которые помогут вам создать генеративные приложения AI, упрощение развития при сохранении привации и безопасности.

Amazon Titan недавно добавила новую модель встраивания в свою коллекцию MultiModal Enterdings Titan. Эта новая модель может использоваться для мультимодального поиска, систем рекомендаций и других нижестоящих приложений.

Мультимодальные модели могут понимать и анализировать данные в нескольких модальностях, таких как текст, изображение, видео и аудио. Эта последняя модель Amazon Titan может принимать текст, изображения или оба. Это означает, что вы используете одну и ту же модель для генерации встроений изображений и текста, а также используйте эти встраивания, чтобы вычислить, насколько похожи они.

sample

Развертывание полного приложения стека

Architecture diagram - Semantic Image search

Эти следующие шаги рассказывают о последовательности действий, которые обеспечивают семантическое изображение и поиск знаменитостей.

Вы загружаете изображение в ведро Amazon S3
Amazon Eventbridge слушает это событие, а затем вызывает выполнение функции AWS Step Function
Функция шага принимает детали изображения Amazon S3 и выполняет 3 параллельных действий
Призыв API в Amazon Rekognition Detectlabels для извлечения метаданных объектов
API призыв к API API API REKOGNITY APIS для извлечения любых известных знаменитостей
AWS Lambda сбрасывает размер изображения до принятых максимальных размеров для модели встроенного ML и генерирует встроение прямо с ввода изображения
Функция Lambda затем вставляет метаданные объекта изображения и названия знаменитостей, если они присутствуют, а также встраивание в качестве вектора K-NN в индекс службы OpenSearch Service
Amazon S3 проводит простой статический веб -сайт, распространяемый Amazon Cloudfront. Пользовательский интерфейс (пользовательский интерфейс) передний интерфейс позволяет вам аутентифицировать приложение с помощью Amazon Cognito для поиска изображений
Вы отправляете статью или какой -то текст через пользовательский интерфейс
Другая функция Lambda вызывает Amazon постигать, чтобы обнаружить любые имена в тексте как потенциальные знаменитости
Функция затем суммирует текст, чтобы получить соответствующие точки из статьи, используя Titan Text G1 - Express
Функция генерирует внедрение суммированной статьи с использованием мультимодальной модели Титана.
Затем функция ищет индекс изображений Service Service Opensearch для изображений, соответствующих названию знаменитости и самым K-ближайшим соседям для вектора, используя сходство косинуса, используя точный K-NN с сценарием оценки.
Amazon CloudWatch и рентген AWS предоставляют вам наблюдаемость в сквозном рабочем процессе, чтобы предупредить вас о любых проблемах.

Заключение

В этом примере вы видели, как использовать Amazon Rekognition, Amazon Inflectend, Amazon Bedrock и Sepensearch Service для извлечения метаданных из ваших изображений, а затем использовать методы ML, чтобы открыть их автоматически, используя знаменитость и семантический поиск. Это особенно важно в издательской индустрии, где скорость имеет значение для быстрого получения свежего контента и для нескольких платформ.

В качестве следующего шага разверните решение в вашей учетной записи AWS и загрузите некоторые из ваших собственных изображений для проверки того, как семантический поиск может работать для вас.

Развернуть шаги

Предварительные условия

Сэм Кли
Решение использует SAM CLI для развертывания. Обязательно используйте последнюю версию Sam Cli
Докер
Решение использует опцию SAM CLI для строительства внутри контейнера, чтобы избежать необходимости локальных зависимостей. Вам понадобится Docker, доступный для этого.
Узел
Передняя часть этого решения - это веб -приложение React, которое можно запускать локально с помощью узла
npm
Установка пакетов, необходимых для запуска веб -приложения локально, или создания его для удаленного развертывания, требует NPM.

Требования к Amazon Bendrock

Базовые модели доступ

Если вы хотите взаимодействовать с моделями из Bedrock Amazon, вам необходимо запросить доступ к базовым моделям в одном из регионов, где доступен Bedrock Amazon. Обязательно прочитайте и принимайте лицензионные соглашения моделей или Eula.

Модель	MAX токен ввод	Встроение измерения	Цена за токен ввода 1K	Цена за токены вывода 1K
Amazon MultiModal Entgeddings	128	1 024 (по умолчанию), 384, 256	Цены на коренной породы	n/a
Текст Титана - Экспресс	8к	n/a	Цены на коренной породы

Вам нужно будет запросить доступ к обеим моделям выше.

Когда мы суммируем текст в нашем рабочем процессе, мы можем указать токены максимального вывода на текстовой модели Titan - Express, и это гарантирует, что мы передаем менее 128 токенов в модель встраивания.

Модель мультимодального встраивания также имеет максимальный размер размерного изображения 2048x2048, который мы обрабатываем как часть изображения, встраивающей функцию Lambda.

Примечание:

Вы можете развернуть решение в другом регионе от того, где вы запросили доступ базовой модели.
В то время как базовое утверждение доступа к модели мгновенно, может потребоваться несколько минут, чтобы получить доступ и увидеть список моделей в пользовательском интерфейсе.

Развертывание

Это развертывание в настоящее время создано для развертывания в регионе США-Восток-1. Пожалуйста, проверьте доступность региона Amazon Bedrock и обновите файл samconfig.toml, чтобы отразить ваш желаемый регион.

Настройка среды

Развернуть с AWS Cloud9

Мы рекомендуем развернуть с AWS Cloud9. Если вы хотите использовать Cloud9 для развертывания решения, вам понадобится следующее, прежде чем продолжить:

Выберите хотя бы m5.large как тип экземпляра.
Используйте Amazon Linux 2 в качестве платформы.

Вы можете запустить эти команды из вашей командной строки/терминала, или вы можете использовать AWS Cloud9.

Клонировать репозиторий

git clone https://github.com/aws-samples/semantic-image-search-for-articles.git

Перейти в клонированное хранилище

 cd semantic-image-search-for-articles

(Необязательно) только для облака9

Если вы используете Cloud9, увеличьте объем EBS экземпляра по крайней мере до 50 ГБ. Для этого запустите следующую команду из терминала Cloud9:

 bash ./scripts/cloud9-resize.sh 50

Смотрите документацию для получения более подробной информации о изменении размера среды.

Просмотрите этот файл: samconfig.toml

Здесь вы можете назвать свой стек и выбрать регион, в котором вы хотите развернуть.

region = "us-east-1"

Проверьте, доступны ли услуги AWS в регионе, который вы выбираете.

Поскольку развертывание будет развернуть Amazon Cloudfront, это может занять около 20 минут.

Cloud9 генерирует токен STS для выполнения развертывания, однако эти учетные данные за последние 15 минут, поэтому токен истекает до завершения развертывания, и поэтому вы не сможете увидеть выходы непосредственно из Cloud9.

Как аутентифицировать с краткосрочными учетными данными вы можете экспортировать токены ключей доступа, следя за тем, чтобы они продержались не менее 30 минут или 1800 секунд:

 export AWS_ACCESS_KEY_ID= < PASTE_ACCESS_KEY >
export AWS_SECRET_ACCESS_KEY= < PASTE_SECRET_ACCESS_KEY >
export AWS_SESSION_TOKEN= < PASTE_SESSION_TOKEN >

(Если токены истекают, вы можете оставить развертывание для завершения, проверяя прогресс в облачной информации, а затем повторно запустить сценарий развертывания ниже - по мере того, как ресурс Amazon CloudFront уже будет существовать, развертывание быстро завершится)

Запустите развертывание приложения

Развертывание решения достигается с помощью следующей команды:

npm install && npm run deploy

Эта команда будет запускать серию сценариев, таких как sam build , sam deploy и несколько других, чтобы настроить среду передней части с правильными переменными.

Cloud9 Deployment complete

Создать сведения о входе в систему для веб -приложения

Ауниция управляется Amazon Cognito. Вам нужно будет создать нового пользователя, чтобы иметь возможность входить в систему.

Вы можете найти идентификатор userPool из вывода CloudFormation и выбрать этот UserPool и создать там нового пользователя для входа.

Amazon Cognito - User creation

Войдите в свое новое веб -приложение

После завершения вывод CLI будет отображаться значение для URL CloudFront для просмотра веб -приложения, например, https://d123abc.cloudfront.net/ - вы также можете увидеть это на выходах Cloudformation.

Администрация

Веб -приложение позволяет пользователю загружать изображения в S3 и быть индексированным с помощью Opensearch, а также выдавать запросы для OpenSearch, чтобы вернуть 10 лучших изображений, которые наиболее семантически связаны с содержимым статьей.

Уборка

Чтобы избежать будущих сборов, удалите ресурсы.

Найдите ведро S3, развернутое с этим решением и опустошите ведро
Запустите sam delete из терминала или перейдите в CloudFormation, выберите стек, который вы развернули с помощью сценария развертывания, упомянутого выше, и удалите стек.

Amazon CloudFormation stacks