Цифровые издатели постоянно ищут способы оптимизации и автоматизации своих рабочих процессов в медиа, чтобы генерировать и публиковать новый контент как можно быстрее, но без предварительного предварительного качества.
Добавление изображений для захвата сущности текста может улучшить опыт чтения. Методы машинного обучения могут помочь вам открыть такие изображения. «Поразительный образ - один из самых эффективных способов привлечения внимания аудитории и создания взаимодействия с вашей историей - но это также должно иметь смысл».
В этом проекте AWS-Samples вы видите, как вы можете использовать модели Amazon Titan Foundation, чтобы быстро понять статью и найти лучшие изображения для ее сопровождения. На этот раз вы генерируете внедрение непосредственно с изображения.
Ключевой концепцией в семантическом поиске являются встраиваемые. Встроение является численным представлением некоторого ввода - изображения, текста или обоих - в форме вектора. Если у вас есть много векторов, вы можете измерить расстояние между ними, а векторы, которые находятся близко на расстоянии, семантически похожи или связаны.
Amazon Bedrock-это полностью управляемый сервис, который предлагает выбор высокопроизводительных моделей фундамента (FMS) от ведущих компаний по искусственным технологиям, включая AI21 Labs, Anpropic, Cohere, Meta, Stability AI и Amazon с одним API, а также широким набором возможностей, которые помогут вам создать генеративные приложения AI, упрощение развития при сохранении привации и безопасности.
Amazon Titan недавно добавила новую модель встраивания в свою коллекцию MultiModal Enterdings Titan. Эта новая модель может использоваться для мультимодального поиска, систем рекомендаций и других нижестоящих приложений.
Мультимодальные модели могут понимать и анализировать данные в нескольких модальностях, таких как текст, изображение, видео и аудио. Эта последняя модель Amazon Titan может принимать текст, изображения или оба. Это означает, что вы используете одну и ту же модель для генерации встроений изображений и текста, а также используйте эти встраивания, чтобы вычислить, насколько похожи они.


Эти следующие шаги рассказывают о последовательности действий, которые обеспечивают семантическое изображение и поиск знаменитостей.
В этом примере вы видели, как использовать Amazon Rekognition, Amazon Inflectend, Amazon Bedrock и Sepensearch Service для извлечения метаданных из ваших изображений, а затем использовать методы ML, чтобы открыть их автоматически, используя знаменитость и семантический поиск. Это особенно важно в издательской индустрии, где скорость имеет значение для быстрого получения свежего контента и для нескольких платформ.
В качестве следующего шага разверните решение в вашей учетной записи AWS и загрузите некоторые из ваших собственных изображений для проверки того, как семантический поиск может работать для вас.
Сэм Кли
Решение использует SAM CLI для развертывания. Обязательно используйте последнюю версию Sam Cli
Докер
Решение использует опцию SAM CLI для строительства внутри контейнера, чтобы избежать необходимости локальных зависимостей. Вам понадобится Docker, доступный для этого.
Узел
Передняя часть этого решения - это веб -приложение React, которое можно запускать локально с помощью узла
npm
Установка пакетов, необходимых для запуска веб -приложения локально, или создания его для удаленного развертывания, требует NPM.
Базовые модели доступ
Если вы хотите взаимодействовать с моделями из Bedrock Amazon, вам необходимо запросить доступ к базовым моделям в одном из регионов, где доступен Bedrock Amazon. Обязательно прочитайте и принимайте лицензионные соглашения моделей или Eula.
| Модель | MAX токен ввод | Встроение измерения | Цена за токен ввода 1K | Цена за токены вывода 1K |
|---|---|---|---|---|
| Amazon MultiModal Entgeddings | 128 | 1 024 (по умолчанию), 384, 256 | Цены на коренной породы | n/a |
| Текст Титана - Экспресс | 8к | n/a | Цены на коренной породы |
Вам нужно будет запросить доступ к обеим моделям выше.
Когда мы суммируем текст в нашем рабочем процессе, мы можем указать токены максимального вывода на текстовой модели Titan - Express, и это гарантирует, что мы передаем менее 128 токенов в модель встраивания.
Модель мультимодального встраивания также имеет максимальный размер размерного изображения 2048x2048, который мы обрабатываем как часть изображения, встраивающей функцию Lambda.
Примечание:
Это развертывание в настоящее время создано для развертывания в регионе США-Восток-1. Пожалуйста, проверьте доступность региона Amazon Bedrock и обновите файл samconfig.toml, чтобы отразить ваш желаемый регион.
Мы рекомендуем развернуть с AWS Cloud9. Если вы хотите использовать Cloud9 для развертывания решения, вам понадобится следующее, прежде чем продолжить:
m5.large как тип экземпляра.Amazon Linux 2 в качестве платформы.Вы можете запустить эти команды из вашей командной строки/терминала, или вы можете использовать AWS Cloud9.
git clone https://github.com/aws-samples/semantic-image-search-for-articles.git cd semantic-image-search-for-articlesЕсли вы используете Cloud9, увеличьте объем EBS экземпляра по крайней мере до 50 ГБ. Для этого запустите следующую команду из терминала Cloud9:
bash ./scripts/cloud9-resize.sh 50
Смотрите документацию для получения более подробной информации о изменении размера среды.
Просмотрите этот файл: samconfig.toml
Здесь вы можете назвать свой стек и выбрать регион, в котором вы хотите развернуть.
region = "us-east-1"Проверьте, доступны ли услуги AWS в регионе, который вы выбираете.
Поскольку развертывание будет развернуть Amazon Cloudfront, это может занять около 20 минут.
Cloud9 генерирует токен STS для выполнения развертывания, однако эти учетные данные за последние 15 минут, поэтому токен истекает до завершения развертывания, и поэтому вы не сможете увидеть выходы непосредственно из Cloud9.
Как аутентифицировать с краткосрочными учетными данными вы можете экспортировать токены ключей доступа, следя за тем, чтобы они продержались не менее 30 минут или 1800 секунд:
export AWS_ACCESS_KEY_ID= < PASTE_ACCESS_KEY >
export AWS_SECRET_ACCESS_KEY= < PASTE_SECRET_ACCESS_KEY >
export AWS_SESSION_TOKEN= < PASTE_SESSION_TOKEN >(Если токены истекают, вы можете оставить развертывание для завершения, проверяя прогресс в облачной информации, а затем повторно запустить сценарий развертывания ниже - по мере того, как ресурс Amazon CloudFront уже будет существовать, развертывание быстро завершится)
Развертывание решения достигается с помощью следующей команды:
npm install && npm run deploy Эта команда будет запускать серию сценариев, таких как sam build , sam deploy и несколько других, чтобы настроить среду передней части с правильными переменными.

Ауниция управляется Amazon Cognito. Вам нужно будет создать нового пользователя, чтобы иметь возможность входить в систему.
Вы можете найти идентификатор userPool из вывода CloudFormation и выбрать этот UserPool и создать там нового пользователя для входа.

После завершения вывод CLI будет отображаться значение для URL CloudFront для просмотра веб -приложения, например, https://d123abc.cloudfront.net/ - вы также можете увидеть это на выходах Cloudformation.
Веб -приложение позволяет пользователю загружать изображения в S3 и быть индексированным с помощью Opensearch, а также выдавать запросы для OpenSearch, чтобы вернуть 10 лучших изображений, которые наиболее семантически связаны с содержимым статьей.
Чтобы избежать будущих сборов, удалите ресурсы.
sam delete из терминала или перейдите в CloudFormation, выберите стек, который вы развернули с помощью сценария развертывания, упомянутого выше, и удалите стек. 
Смотрите Anploying для получения дополнительной информации.
Эта библиотека лицензирована по лицензии MIT-0. Смотрите файл лицензии.