semantic image search for articles - semantic image search for articles . تنزيل رمز المصدر

semantic image search for articles

شفرة المصدر الأخرى

1.0.0

تنزيل

البحث عن الصور الدلالية باستخدام نموذج التضمينات متعددة الوسائط من Amazon Titan

يبحث الناشرون الرقميون باستمرار عن طرق لتبسيط وأتمتة سير العمل في الوسائط الخاصة بهم لإنشاء ونشر محتوى جديد بأسرع ما يمكن ، ولكن دون ما تقدم الجودة.

يمكن أن تؤدي إضافة الصور لالتقاط جوهر النص إلى تحسين تجربة القراءة. يمكن أن تساعدك تقنيات التعلم الآلي على اكتشاف مثل هذه الصور. "تعد الصورة المذهلة واحدة من أكثر الطرق فعالية لجذب انتباه الجماهير وخلق المشاركة مع قصتك - ولكنها يجب أن تكون منطقية أيضًا".

في مشروع AWS-Samples هذا ، سترى كيف يمكنك استخدام نماذج مؤسسة Amazon Titan لفهم مقال بسرعة وإيجاد أفضل الصور لمرافقتها. هذه المرة ، تقوم بإنشاء التضمين مباشرة من الصورة.

مفهوم رئيسي في البحث الدلالي هو تضمينات. التضمين هو تمثيل رقمي لبعض المدخلات - صورة أو نص أو كليهما - في شكل ناقل. عندما يكون لديك العديد من المتجهات ، يمكنك قياس المسافة بينهما ، والمتجهات القريبة من المسافة متشابهة أو ذات صلة.

Amazon Bedrock هي خدمة مُدارة بالكامل توفر مجموعة من نماذج الأساس عالية الأداء (FMS) من شركات AI الرائدة بما في ذلك مختبرات AI21 ، والأنثروبور ، والتعايش ، والاستقرار AI ، و Amazon مع واجهة برمجة تطبيقات واحدة ، إلى جانب مجموعة واسعة من القدرات لمساعدتك في بناء تطبيقات AI الأولي ، وتبسيط التطوير مع الخصوصية والأمن.

أضافت Amazon Titan مؤخرًا نموذجًا جديدًا للتضمين إلى مجموعته ، Titan Multimodal Embededs. يمكن استخدام هذا النموذج الجديد للبحث متعدد الوسائط وأنظمة التوصية والتطبيقات الأخرى.

يمكن للنماذج متعددة الوسائط فهم البيانات وتحليلها في طرائق متعددة مثل النص والصورة والفيديو والصوت. يمكن أن يقبل نموذج Amazon Titan هذا النص أو الصور أو كليهما. هذا يعني أنك تستخدم نفس النموذج لإنشاء تضمينات من الصور والنص واستخدم تلك التضمين لحساب مدى تشابه الاثنين.

sample

نشر تطبيق المكدس الكامل

Architecture diagram - Semantic Image search

تتحدث هذه الخطوات التالية من خلال تسلسل الإجراءات التي تمكن الصورة الدلالية والبحث عن المشاهير.

تقوم بتحميل صورة إلى دلو Amazon S3
تستمع Amazon Eventbridge إلى هذا الحدث ، ثم يؤدي إلى تنفيذ وظيفة خطوة AWS
تأخذ وظيفة الخطوة تفاصيل صورة Amazon S3 وتشغيل 3 إجراءات متوازية
استدعاء API إلى Amazon Rekognition detectlabels لاستخراج بيانات التعريف الكائن
دعوة API إلى Amazon Rekognition التعرف على واجهات برمجة التطبيقات لاستخراج أي مشاهير معروفين
تقوم AWS Lambda بتغيير الصورة إلى أبعاد أقصى مقبولة لنموذج تضمين ML وتوليد تضمين مباشر من إدخال الصورة
ثم تقوم دالة Lambda بإدراج بيانات تعريف كائن الصورة واسم (أسماء) المشاهير إذا كانت موجودة ، والتضمين كمتجه K-NN في فهرس خدمة OpenSearch
تستضيف Amazon S3 موقعًا ثابتًا بسيطًا ، موزعة بواسطة Amazon CloudFront. تتيح لك واجهة المستخدم الأمامية (UI) المصادقة مع التطبيق باستخدام Amazon Cognito للبحث عن الصور
تقوم بإرسال مقال أو بعض النص عبر واجهة المستخدم
وظيفة Lambda أخرى تستدعي Amazon الفهم لاكتشاف أي أسماء في النص كمشاهير محتملين
ثم تلخص الوظيفة النص للحصول على النقاط ذات الصلة من المقالة باستخدام Titan Text G1 - Express
تولد الوظيفة تضمين المقالة الملخصة باستخدام نموذج Titan متعدد الوسائط.
تقوم الوظيفة بعد ذلك بالبحث عن فهرس صورة خدمة OpenSearch للصور التي تطابق اسم المشاهير وجيران K-Nearest للمتجه باستخدام تشابه جيب التمام ، وذلك باستخدام K-NN الدقيق مع التسجيل.
يمنحك Amazon CloudWatch و AWS X-Ray إمكانية الملاحظة في سير العمل من طرف إلى طرف لتنبيهك بأي مشاكل.

خاتمة

في هذا المثال ، رأيت كيفية استخدام Amazon Rekognition و Amazon Commandend و Amazon Bedrock و OpenSearch لاستخراج البيانات الوصفية من صورك ثم استخدام تقنيات ML لاكتشافها تلقائيًا باستخدام المشاهير والبحث الدلالي. هذا مهم بشكل خاص في صناعة النشر ، حيث تهم السرعة في إخراج المحتوى الجديد بسرعة وإلى منصات متعددة.

كخطوة تالية ، نشر الحل في حساب AWS الخاص بك وتحميل بعض الصور الخاصة بك لاختبار كيف يمكن للبحث الدلالي العمل من أجلك.

نشر الخطوات

المتطلبات المسبقة

سام كلي
يستخدم الحل SAM CLI للنشر. تأكد من استخدام أحدث إصدار من Sam Cli
عامل ميناء
يستخدم الحل خيار SAM CLI للبناء داخل حاوية لتجنب الحاجة إلى التبعيات المحلية. ستحتاج إلى Docker متاح لهذا.
العقدة
الواجهة الأمامية لهذا الحل هي تطبيق Web React يمكن تشغيله محليًا باستخدام العقدة
NPM
يتطلب تثبيت الحزم المطلوبة لتشغيل تطبيق الويب محليًا ، أو إنشاءه للنشر عن بُعد ، NPM.

متطلبات السرير الأمازون

النماذج الأساسية الوصول

إذا كنت تتطلع إلى التفاعل مع طرز من الأساس الأمازون ، فأنت بحاجة إلى طلب الوصول إلى الطرز الأساسية في إحدى المناطق التي تتوفر فيها الأساس الأمازون. تأكد من قراءة وقبول اتفاقيات ترخيص المستخدم النهائي أو EULA.

نموذج	أقصى مدخلات الرمز المميز	دمج البعد	سعر رمز إدخال 1K	سعر رموز الإخراج 1K
التضمينات متعددة الوسائط الأمازون	128	1،024 (افتراضي) ، 384 ، 256	أسعار الأساس	ن/أ
Titan Text - Express	8K	ن/أ	أسعار الأساس

ستحتاج إلى طلب الوصول إلى كلا النموذجين أعلاه.

عندما نلخص النص في سير العمل الخاص بنا ، يمكننا تحديد الرموز المميزة للإخراج MAX على نص Titan - Express ، وهذا يضمن أن نمر في أقل من 128 رمزًا لنموذج التضمين.

يحتوي نموذج التضمين متعدد الوسائط أيضًا على حجم بُعد صورة أقصى قدره 2048x2048 والذي نتعامل معه كجزء من وظيفة Lambda لتضمين الصورة.

ملحوظة:

يمكنك نشر الحل إلى منطقة مختلفة عن المكان الذي طلبت فيه الوصول إلى النموذج الأساسي.
على الرغم من أن موافقة الوصول إلى النموذج الأساسي تكون فورية ، فقد يستغرق الأمر عدة دقائق للوصول ومشاهدة قائمة النماذج في واجهة المستخدم.

النشر

تم إنشاء هذا النشر حاليًا للنشر في منطقة الولايات المتحدة-East-1. يرجى التحقق من توفر منطقة Amazon Bedrock وتحديث ملف samconfig.toml لتعكس منطقتك المطلوبة.

إعداد البيئة

انتشر مع AWS Cloud9

نوصي النشر مع AWS Cloud9. إذا كنت ترغب في استخدام Cloud9 لنشر الحل ، فستحتاج إلى ما يلي قبل المتابعة:

حدد ما لا يقل عن m5.large كنوع مثيل.
استخدم Amazon Linux 2 كمنصة.

يمكنك تشغيل هذه الأوامر من سطر/محطة الأوامر الخاصة بك ، أو يمكنك استخدام AWS Cloud9.

استنساخ المستودع

git clone https://github.com/aws-samples/semantic-image-search-for-articles.git

انتقل إلى المستودع المستنسخ

 cd semantic-image-search-for-articles

(اختياري) فقط لـ Cloud9

إذا كنت تستخدم Cloud9 ، فقم بزيادة حجم EBS للمثال إلى 50 جيجابايت على الأقل. للقيام بذلك ، قم بتشغيل الأمر التالي من محطة Cloud9:

 bash ./scripts/cloud9-resize.sh 50

راجع الوثائق لمزيد من التفاصيل حول تغيير حجم البيئة.

راجع هذا الملف: samconfig.toml

هنا يمكنك تسمية مكدتك ، واختيار المنطقة التي تريد نشرها.

region = "us-east-1"

تحقق مما إذا كانت خدمات AWS متوفرة في المنطقة التي تختارها.

نظرًا لأن النشر سوف ينشر Amazon CloudFront ، فقد يستغرق ذلك حوالي 20 دقيقة.

يولد Cloud9 STS Token's لإجراء النشر ، ومع ذلك ، فإن بيانات الاعتماد هذه تستمر فقط 15 دقيقة ، وبالتالي فإن الرمز المميز سوف ينتهي قبل اكتمال النشر ، وبالتالي لن تتمكن من رؤية المخرجات مباشرة من Cloud9.

كيفية المصادقة مع بيانات الاعتماد قصيرة الأجل ، يمكنك تصدير رموز مفتاح الوصول ، مع التأكد من استمرار 30 دقيقة أو 1800 ثانية على الأقل:

 export AWS_ACCESS_KEY_ID= < PASTE_ACCESS_KEY >
export AWS_SECRET_ACCESS_KEY= < PASTE_SECRET_ACCESS_KEY >
export AWS_SESSION_TOKEN= < PASTE_SESSION_TOKEN >

(إذا انتهت صلاحية الرموز المميزة ، فيمكنك ترك النشر لإكمالها ، والتحقق من التقدم في CloudFormation ، ثم إعادة تشغيل البرنامج النصي للنشر أدناه - نظرًا لوجود مورد Amazon Cloudfront بالفعل ، سيتم الانتهاء من النشر بسرعة)

تشغيل نشر التطبيق

يتم تحقيق نشر الحل مع الأمر التالي:

npm install && npm run deploy

سيقوم هذا الأمر بتشغيل سلسلة من البرامج النصية مثل sam build و sam deploy وعدد قليل من الآخرين لإعداد بيئة الواجهة الأمامية مع المتغيرات الصحيحة.

Cloud9 Deployment complete

إنشاء تفاصيل تسجيل الدخول لتطبيق الويب

تتم إدارة Authenication بواسطة Amazon Cognito. ستحتاج إلى إنشاء مستخدم جديد لتتمكن من تسجيل الدخول.

يمكنك العثور على معرف userPool من إخراج CloudFormation واختيار هذا userPool وإنشاء مستخدم جديد هناك لتسجيل الدخول.

Amazon Cognito - User creation

تسجيل الدخول إلى تطبيق الويب الجديد الخاص بك

بمجرد الانتهاء ، سيعرض إخراج CLI قيمة لعنوان URL CloudFront ليتمكن من عرض تطبيق الويب ، على سبيل المثال https://d123abc.cloudfront.net/ - يمكنك أيضًا رؤية ذلك في مخرجات CloudFormation.

إدارة

يسمح تطبيق الويب للمستخدم بتحميل الصور إلى S3 وفهرستها بواسطة OpenSearch بالإضافة إلى إصدار استعلامات إلى OpenSearch لإعادة أفضل 10 صور مرتبطة بشكل أكثر دلالة بمحتوى المقالة.

تنظيف

لتجنب تكبد الرسوم المستقبلية ، حذف الموارد.

ابحث عن دلو S3 تم نشره بهذا الحل وتفريغ الدلو
قم بتشغيل sam delete من المحطة ، أو انتقل إلى CloudFormation ، واختر المكدس الذي نشرته عبر البرنامج النصي المنشور المذكور أعلاه ، وحذف المكدس.

Amazon CloudFormation stacks