في حين أن العالم لا يزال يتعافى ، لم يبطئ البحث وتيرته المحمومة ، خاصة في مجال الذكاء الاصطناعي. أكثر من ذلك ، تم تسليط الضوء على العديد من الجوانب المهمة هذا العام ، مثل الجوانب الأخلاقية والتحيزات المهمة والحوكمة والشفافية وأكثر من ذلك بكثير. تتطور الذكاء الاصطناعي وفهمنا للدماغ البشري وارتباطه بمنظمة العفو الدولية باستمرار ، مما يدل على تطبيقات واعدة تعمل على تحسين جودة حياتنا في المستقبل القريب. ومع ذلك ، يجب أن نكون حذرين مع التكنولوجيا التي نختار تقديمها.
"لا يمكن للعلم أن يخبرنا بما يجب أن نفعله ، فقط ما يمكننا القيام به."
- جان بول سارتر ، كونه ولا شيء
فيما يلي قائمة منسقة لأحدث الاختراقات في AI وعلوم البيانات حسب تاريخ الإصدار مع شرح فيديو واضح ، ارتباط بمقالة أكثر تعمقا ، ورمز (إن أمكن). استمتع بالقراءة!
يتم سرد الإشارة الكاملة إلى كل ورقة في نهاية هذا المستودع. نجم هذا المستودع للبقاء على اطلاع دائم وبقاء ضبط للعام المقبل! ️
المشرف: LOUISFB01 ، النشط أيضًا على YouTube وكمدة podcaster إذا كنت تريد رؤية/تسمع المزيد عن الذكاء الاصطناعي!
اشترك في النشرة الإخبارية الخاصة بي - أشرح آخر التحديثات في الذكاء الاصطناعي كل أسبوع.
لا تتردد في مراسلتي بأي ورقة مثيرة للاهتمام قد فاتني لإضافتها إلى هذا المستودع.
ضع علامة على twitter @whats_ai أو linkedIn @louis (ما هو AI) Bouchard إذا كنت تشارك القائمة! وتأتي دردشة معنا في مجتمع Discord Searn Together AI!
؟ إذا كنت ترغب في دعم عملي ، فيمكنك التحقق من رعاية هذا المستودع أو دعمني على Patreon.
من المؤكد أنك قد واجهت هذا الموقف مرة واحدة: فأنت تلتقط صورة رائعة مع صديقك ، وشخص ما يتصاعد خلفك ، مما يدمر منشور Instagram المستقبلي. حسنًا ، لم تعد هذه مشكلة. إما أنه شخص أو سلة المهملات التي نسيت إزالتها قبل أخذ صورتك الشخصية التي تدمر صورتك. ستقوم AI بإزالة الكائن أو الشخص غير المرغوب فيه تلقائيًا وحفظ مشاركتك. إنه تمامًا مثل مصمم Photoshop المحترف في جيبك ، وبنقر نقرة بسيطة!
هذه المهمة المتمثلة في إزالة جزء من الصورة واستبدالها بما يجب أن يظهر وراءه قد تم معالجته من قبل العديد من باحثو الذكاء الاصطناعى لفترة طويلة. يطلق عليه Image Inpainting ، وهو أمر صعب للغاية ...
من المؤكد أنك شاهدت أفلامًا مثل الكابتن مارفل أو Gemini Man حيث بدا أن صموئيل L Jackson و Will Smith يبدو أنهم أصغر سناً. يتطلب هذا المئات إن لم يكن آلاف الساعات من العمل من المحترفين تحرير المشاهد التي ظهر فيها يدويًا. بدلاً من ذلك ، يمكنك استخدام الذكاء الاصطناعي البسيط والقيام بذلك في غضون بضع دقائق. في الواقع ، تتيح لك العديد من التقنيات إضافة الابتسامات ، وتجعلك تبدو أصغر سناً أو أكبر ، وكلها تستخدم خوارزميات قائمة على الذكاء الاصطناعي تلقائيًا. يطلق عليه التلاعب على الوجه القائم على الذكاء الاصطناعى في مقاطع الفيديو ، وإليك ما هو حديثي في عام 2022!
التقديم العصبي. التقديم العصبي هو القدرة على توليد نموذج واقعية في الفضاء تمامًا مثل هذا الشكل ، من صور الكائن أو الشخص أو مشهد الاهتمام. في هذه الحالة ، سيكون لديك عدد قليل من الصور لهذا التمثال واطلب من الجهاز فهم كيف يجب أن يبدو الكائن في هذه الصور في الفضاء. أنت تطلب أساسًا من الجهاز لفهم الفيزياء والأشكال من الصور. هذا أمر سهل للغاية بالنسبة لنا لأننا نعرف فقط العالم الحقيقي والأعماق ، لكنه تحدٍ آخر تمامًا لآلة لا ترى وحدات البكسل إلا. إنه لأمر رائع أن يبدو النموذج الذي تم إنشاؤه دقيقًا بأشكال واقعية ، ولكن ماذا عن كيف تمتزج في المشهد الجديد؟ وماذا لو تختلف ظروف الإضاءة في الصور التي تم التقاطها ويبدو النموذج الذي تم إنشاؤه مختلفًا اعتمادًا على الزاوية التي تنظر إليها؟ هذا سيبدو تلقائيًا غريبًا وغير واقعي بالنسبة لنا. هذه هي التحديات التي هاجمت Snapchat وجامعة جنوب كاليفورنيا في هذا البحث الجديد.
لقد رأينا صورة inpainting ، والتي تهدف إلى إزالة كائن غير مرغوب فيه من صورة. لا تزيل التقنيات المستندة إلى التعلم الآلي الكائنات ببساطة ، لكنها تفهم أيضًا الصورة وملء الأجزاء المفقودة من الصورة بما يجب أن تبدو عليه الخلفية. التطورات الحديثة لا تصدق ، تمامًا مثل النتائج ، ويمكن أن تكون هذه المهمة المفيدة مفيدة للغاية للعديد من التطبيقات مثل الإعلانات أو تحسين منشور Instagram المستقبلي. قمنا أيضًا بتغطية مهمة أكثر تحديًا: الفيديو غير المتقدم ، حيث يتم تطبيق نفس العملية على مقاطع الفيديو لإزالة الكائنات أو الأشخاص.
يأتي التحدي مع مقاطع الفيديو مع البقاء متسقًا من إطار إلى إطار دون أي قطع أثرية عربات التي تجرها الدواب. ولكن الآن ، ماذا يحدث إذا أزلنا شخص ما من فيلم بشكل صحيح وما زال الصوت هناك ، دون تغيير؟ حسنًا ، قد نسمع شبحًا وندمر كل عملنا.
هذا هو المكان الذي تأتي فيه المهمة التي لم أغطيها على قناتي: الكلام غير المباشر. لقد سمعت ذلك بشكل صحيح ، لقد نشر باحثون من Google ورقة تهدف إلى خطاب Inpainting ، وكما سنرى ، فإن النتائج مثيرة للإعجاب. حسنًا ، قد نسمع بدلاً من رؤية النتائج ، لكنك تحصل على هذه النقطة. يمكن أن تصحح قواعد اللغة أو النطق أو حتى إزالة ضوضاء الخلفية. كل الأشياء التي أحتاجها بالتأكيد لمواصلة العمل عليها ، أو ... ببساطة استخدم نموذجهم الجديد ... استمع إلى الأمثلة في الفيديو الخاص بي!
هل لديك أيضًا صور قديمة لنفسك أو تُغلق تلك التي لم تتقدم في العمر أو أن أنت ، أو والديك ، قد التقطت قبل أن نتمكن من إنتاج صور عالية الجودة؟ أفعل ، وشعرت أن تلك الذكريات تضررت إلى الأبد. فتى ، هل كنت مخطئا!
يمكن لهذا طراز الذكاء الاصطناعى الجديد والمجاني تمامًا إصلاح معظم صورك القديمة في ثانية مقسمة. إنه يعمل بشكل جيد حتى مع مدخلات منخفضة للغاية أو عالية الجودة ، والتي عادة ما تكون التحدي.
تدعى ورقة هذا الأسبوع نحو استعادة الوجه الأعمى في العالم الحقيقي مع تعاملات الوجه المسبق لمهمة استعادة الصور مع نتائج رائعة. ما هو أكثر برودة هو أنه يمكنك تجربة ذلك بنفسك وفي طريقتك المفضلة. لقد قاموا بمصادر مفتوحة بمصادرهم ، وأنشأوا عرضًا تجريبيًا وعبرًا عبر الإنترنت لمحاولة تجربته الآن. إذا لم تكن النتائج التي رأيتها أعلاه مقنعة بما فيه الكفاية ، فما عليك سوى مشاهدة الفيديو وأخبرني برأيك في التعليقات ، فأنا أعلم أنه سوف يفجر عقلك!
كيف ترى المركبات المستقلة؟
ربما سمعت عن مستشعرات Lidar أو غيرها من الكاميرات الغريبة التي يستخدمونها. ولكن كيف يعملون ، وكيف يمكنهم رؤية العالم ، وماذا يرون بالضبط مقارنة بنا؟ يعد فهم كيفية عملهم أمرًا ضروريًا إذا أردنا وضعهم على الطريق ، وفي المقام الأول إذا كنت تعمل في الحكومة أو تقوم ببناء اللوائح التالية. ولكن أيضا كعميل لهذه الخدمات.
لقد غطينا سابقًا كيف يرى Tesla Autopilot ويعمل ، لكنهم يختلفون عن المركبات التقليدية المستقلة. يستخدم Tesla الكاميرات فقط لفهم العالم ، في حين أن معظمها ، مثل Waymo ، يستخدمون الكاميرات العادية وأجهزة استشعار Lidar ثلاثية الأبعاد. أجهزة استشعار LiDAR سهلة الفهم هذه: لن تنتج صورًا مثل الكاميرات العادية ولكن السحب ثلاثية الأبعاد. تقيس كاميرات LiDar المسافة بين الكائنات ، وحساب وقت السفر بالليزر النبض الذي يتقدمون به على الكائن.
ومع ذلك ، كيف يمكننا الجمع بين هذه المعلومات بكفاءة وجعل السيارة تفهمها؟ وماذا ينتهي الأمر بالسيارة؟ النقاط فقط في كل مكان؟ هل يكفي القيادة على طرقنا؟ سنبحث في هذا مع ورقة بحثية جديدة من خلال Waymo و Google Research ...
كما لو أن التقاط صورة لم يكن براعة تكنولوجية صعبة بما فيه الكفاية ، فإننا نفعل الآن عكس ذلك: نمذجة العالم من الصور. لقد غطيت النماذج المذهلة القائمة على الذكاء الاصطناعي والتي يمكن أن تلتقط الصور وتحويلها إلى مشاهد عالية الجودة. مهمة صعبة تتكون من التقاط بعض الصور في عالم الصور ثنائي الأبعاد لإنشاء كيفية ظهور الكائن أو الشخص في العالم الحقيقي.
التقط بعض الصور وعلى الفور لديك نموذج واقعي لإدراجه في منتجك. ما مدى روعة هذا؟!
لقد تحسنت النتائج بشكل كبير على النموذج الأول الذي غطيته في عام 2020 ، ودعا NERF. وهذا التحسن لا يتعلق فقط بجودة النتائج. جعل Nvidia الأمر أفضل.
ليس فقط أن الجودة قابلة للمقارنة ، إن لم تكن أفضل ، ولكنها أسرع أكثر من 1000 مرة مع أقل من عامين من البحث.
في العام الماضي ، قمت بمشاركة Dall · e ، وهو نموذج مذهل من Openai قادر على إنشاء صور من إدخال نص مع نتائج لا تصدق. لقد حان الوقت لأخيه الأكبر ، دال · ه 2 ولن تصدق التقدم في عام واحد! Dall · e 2 ليس فقط أفضل في توليد الصور الواقعية من النص. النتائج أربعة أضعاف القرار!
كما لو أنه لم يكن مثيرًا للإعجاب بالفعل ، فقد تعلم النموذج الأخير مهارة جديدة ؛ صورة inpainting.
يمكن أن تقوم Dall · e بإنشاء صور من مدخلات النص.
يمكن لـ Dall · e 2 أن يفعل ذلك بشكل أفضل ، لكنه لا يتوقف عند هذا الحد. يمكنه أيضًا تعديل تلك الصور وجعلها تبدو أفضل! أو ببساطة إضافة ميزة تريدها مثل بعض فلامنغوس في الخلفية.
تبدو مثيرة للاهتمام؟ تعرف على المزيد في الفيديو أو اقرأ المزيد أدناه!
هذا النموذج الجديد من قبل Google Research وجامعة Tel-Aviv لا يصدق. يمكنك أن ترى أنه عميق قوي للغاية يمكنه فعل أي شيء.
التقط مائة صورة لأي شخص ولديك شخصيته مشفرة لإصلاح أو تحرير أو إنشاء أي صورة واقعية تريدها.
هذا مذهل ومخيف إذا سألتني ، خاصة عندما تنظر إلى النتائج. شاهد الفيديو لمشاهدة المزيد من النتائج وفهم كيفية عمل النموذج!
تحقق من ما هو بودكاست AI لمزيد من محتوى الذكاء الاصطناعي في شكل مقابلات مع خبراء في هذا المجال! سأغطي خبير منظمة العفو الدولية ودعوة مواضيع محددة وحقول فرعية وأدوار تتعلق بمنظمة العفو الدولية لتعليم المعرفة ومشاركتها من الأشخاص الذين عملوا بجد لجمعها.
لقد سمعنا جميعًا عن GPT-3 ولدينا فكرة واضحة إلى حد ما عن قدراتها. من المؤكد أنك رأيت بعض التطبيقات المولودة بصرامة بسبب هذا النموذج ، والتي غطتها بعضها في مقطع فيديو سابق حول النموذج. GPT-3 هو نموذج تم تطويره بواسطة Openai يمكنك الوصول إليه من خلال واجهة برمجة تطبيقات مدفوعة الأجر ولكن لا يمكن الوصول إلى النموذج نفسه.
ما يجعل GPT-3 قويًا جدًا هو بنية وحجمها. لديها 175 مليار معلمة. ضعف كمية الخلايا العصبية التي لدينا في أدمغتنا! تم تدريب هذه الشبكة الهائلة إلى حد كبير على الإنترنت بأكمله لفهم كيفية كتابة النص وتبادله ونفهمه. هذا الأسبوع ، اتخذت Meta خطوة كبيرة إلى الأمام للمجتمع. لقد أصدروا للتو نموذجًا قويًا بنفس القدر ، إن لم يكن أكثر ولديه مفتوح تمامًا.
يسمح Blobgan بالتلاعب غير الحقيقي بالصور ، حيث صنعت بشكل فائق التحكم في النقط البسيطة. تمثل كل هذه النقط الصغيرة كائنًا ، ويمكنك تحريكها أو جعلها أكبر أو أصغر أو حتى إزالتها ، وسيكون لها نفس التأثير على الكائن الذي يمثله في الصورة. هذا رائع جدا!
بما أن المؤلفين شاركوا في نتائجهم ، يمكنك حتى إنشاء صور جديدة عن طريق تكرار النقش ، وإنشاء صور غير مرئية في مجموعة البيانات مثل غرفة بها عشاق سقف! صححني إذا كنت مخطئًا ، لكنني أعتقد أنها واحدة من الورقة ، إن لم تكن الأولى ، تقوم بتعديل الصور بسيطة مثل النقط المتحركة والسماح بالتعديلات التي كانت غير مرئية في مجموعة بيانات التدريب.
ويمكنك في الواقع اللعب مع هذه الشركة مقارنة ببعض الشركات التي نعرفها جميعًا! شاركوا رمزهم علنًا وتوضيح كولاب الذي يمكنك تجربته على الفور. أكثر إثارة هو كيف يعمل Blobgan. تعرف على المزيد في الفيديو!
تم نشر Gato من DeepMind للتو! إنه محول واحد يمكنه لعب ألعاب Atari ، وصور التسمية التوضيحية ، والدردشة مع الأشخاص ، والتحكم في ذراع آلية حقيقية ، وأكثر من ذلك! في الواقع ، يتم تدريبه مرة واحدة ويستخدم نفس الأوزان لتحقيق كل هذه المهام. ووفقًا لـ DeepMind ، فإن هذا ليس مجرد محول ولكن أيضًا عامل. هذا ما يحدث عندما تخلط المحولات مع التقدم في وكلاء التعلم التعزيز متعدد المهام.
GATO هو وكيل متعدد الوسائط. بمعنى أنه يمكن أن ينشئ تسميات توضيحية للصور أو الإجابة على الأسئلة كدردشة. ستقول أن GPT-3 يمكنه فعل ذلك بالفعل ، ولكن يمكن لـ GATO أن تفعل المزيد ... تأتي الوسائط المتعددة من حقيقة أن GATO يمكنها أيضًا لعب ألعاب Atari على المستوى البشري أو حتى القيام بمهام في العالم الحقيقي مثل التحكم في الأسلحة الآلية حرك الكائنات بدقة. إنه يفهم الكلمات والصور وحتى الفيزياء ...
إذا كنت تعتقد أن Dall-E 2 كان لديه نتائج رائعة ، فانتظر حتى ترى ما يمكن أن يفعله هذا النموذج الجديد من Google Brain.
Dalle-E مدهش ولكن في كثير من الأحيان يفتقر إلى الواقعية ، وهذا ما هاجمه الفريق بهذا النموذج الجديد المسمى Imagen.
إنهم يشاركون الكثير من النتائج على صفحة المشروع الخاصة بهم بالإضافة إلى معيار ، والذي قدموه لمقارنة نماذج النص إلى صورة ، حيث يتفوقون بوضوح على Dall-E 2 ، ونهج توليد الصور السابقة. تعرف على المزيد في الفيديو ...
دال ميني مدهش - ويمكنك استخدامه!
أنا متأكد من أنك رأيت صورًا مثل تلك الموجودة في خلاصة Twitter الخاصة بك في الأيام القليلة الماضية. إذا كنت تتساءل عما كانت عليه ، فهي صور تم إنشاؤها بواسطة منظمة العفو الدولية تسمى Dall · e mini. إذا لم ترها من قبل ، فأنت بحاجة إلى مشاهدة هذا الفيديو لأنك في عداد المفقودين. إذا كنت تتساءل كيف يكون ذلك ممكنًا ، فأنت على الفيديو المثالي وستعرف الإجابة في أقل من خمس دقائق.
Dalle Mini هي منظمة العفو الدولية مجانية ومفتوحة المصدر تنتج صورًا مذهلة من مدخلات نصية.
إن أحدث نموذج لـ Meta AI ، يُطلق عليه "لا توجد لغة تركت وراءه" يفعل ذلك بالضبط: يترجم عبر 200 لغة مختلفة بجودة أحدث. يمكن لنموذج واحد التعامل مع 200 لغة. كيف لا يصدق هذا؟
نجد صعوبة في الحصول على نتائج رائعة في اللغة الإنجليزية ، بينما تعالج Meta 200 لغة مختلفة بنفس النموذج ، وبعضها الأكثر تعقيدًا وأقل تمثيلًا تترجم حتى Google النضالات مع ...
يقومون بإعادة بناء الصوت باستخدام الكاميرات وحزمة الليزر على أي سطح مهتز ، مما يسمح لهم بعزل أدوات الموسيقى ، والتركيز على مكبر صوت معين ، وإزالة الضوضاء المحيطة ، والعديد من التطبيقات المدهشة.
Make-A-Scene ليس "مجرد دال آخر". الهدف من هذا النموذج الجديد هو السماح للمستخدمين بإنشاء صور عشوائية بعد موجه النص كما يفعل Dalle - وهو أمر رائع حقًا - ولكنه يقيد عنصر تحكم المستخدم على الأجيال.
بدلاً من ذلك ، أرادت Meta دفع التعبير الإبداعي للأمام ، ودمج هذا الاتجاه من النص إلى صورة من خلال النماذج السابقة للرسم إلى الصور ، مما يؤدي إلى "Make-A-Scene": مزيج رائع بين النص وتوليد الصور المكيف.
إنشاء نماذج ثلاثية الأبعاد قابلة للتشوه من الصور مع banmo!
ما الذي تشترك فيه جميع نماذج الصور القوية الفائقة مثل Dalle أو Imagen أو Midjourney؟ بخلاف تكاليف الحوسبة المرتفعة ، ووقت التدريب الضخم ، والضجيج المشترك ، فإنها تعتمد جميعها على نفس الآلية: الانتشار. حققت نماذج الانتشار مؤخراً نتائج حديثة لمعظم مهام الصور بما في ذلك نص إلى صورة مع DALLE ولكن العديد من المهام الأخرى المتعلقة بتوليد الصور أيضًا ، مثل الصور غير المباشرة أو نقل الأسلوب أو الدقة الفائقة الصورة.
؟ إذا كنت ترغب في دعم عملي ، فيمكنك التحقق من رعاية هذا المستودع أو دعمني على Patreon.
يعد توليد الرسم البياني للمشهد الصادق ، أو PSG ، مهمة جديدة تهدف إلى إنشاء تمثيل للرسم البياني أكثر شمولاً لصورة أو مشهد استنادًا إلى تجزئة panoptic بدلاً من الصناديق المحيطة. يمكن استخدامه لفهم الصور وإنشاء جمل تصف ما يحدث. قد تكون هذه المهمة الأكثر تحديا لمنظمة العفو الدولية! تعرف على المزيد أدناه ...
نماذج من النص إلى صورة مثل Dalle أو الانتشار المستقر رائع حقًا وتسمح لنا بإنشاء صور رائعة مع إدخال نص بسيط. ولكن هل سيكون من المبرد أن نعطيهم صورة لك واطلبها لتحويلها إلى لوحة؟ تخيل أن تكون قادرًا على إرسال أي صورة لكائن أو شخص أو حتى قطتك ، واطلب من النموذج تحويله إلى نمط آخر مثل تحويل نفسك إلى سايبورغ إلى أسلوبك الفني المفضل أو إضافته إلى مشهد جديد.
في الأساس ، ما مدى روعة الحصول على إصدار من Dalle يمكننا استخدامه في Photoshop صورنا بدلاً من وجود أجيال عشوائية؟ امتلاك دال مخصصة ، مع جعل الأمر أكثر سهولة للتحكم في الجيل باعتباره "صورة تساوي ألف كلمة". سيكون مثل وجود نموذج dalle الذي يتسم بالشخصية والإدمان مثل خوارزمية Tiktok.
حسنًا ، هذا ما عمل فيه الباحثون من جامعة تل أبيب و NVIDIA. لقد طوروا مقاربة لتكييف نماذج النص إلى صورة ، مثل الانتشار المستقر الذي غطيته الأسبوع الماضي ، مع بعض الصور لتمثيل أي كائن أو مفهوم من خلال الكلمات التي سترسلها على صورك. تحويل كائن إدخال الصور الخاصة بك إلى ما تريد!
لقد رأينا منظمة العفو الدولية تنشئ نصًا ، ثم ننشئ صورًا ومؤخراً توليد مقاطع فيديو قصيرة ، على الرغم من أنها لا تزال بحاجة إلى عمل. النتائج لا تصدق عندما تعتقد أنه لا يوجد أحد يشارك فعليًا في عملية إنشاء هذه القطع ويجب تدريبها مرة واحدة فقط على استخدامها من قبل الآلاف من الأشخاص مثل الانتشار المستقر. ومع ذلك ، هل تفهم هذه النماذج حقًا ما يفعلونه؟ هل يعرفون ما هي الصورة أو الفيديو الذي أنتجوه للتو الذي يمثله حقًا؟ ما الذي يفهمه مثل هذا النموذج عندما يرى مثل هذه الصورة ، أو أكثر تعقيدًا ، مقطع فيديو؟
Meta AI الجديد Make-A-Video خارج في جملة واحدة: إنه ينشئ مقاطع فيديو من النص. إنها ليست قادرة على إنشاء مقاطع فيديو فحسب ، بل إنها أيضًا الطريقة الحديثة الجديدة ، حيث تنتج مقاطع فيديو عالية الجودة وأكثر تماسكًا من أي وقت مضى!
هل سبق لك أن حلمت بأداة نسخ جيدة من شأنها أن تفهم بدقة ما تقوله وتكتبه؟ ليس مثل أدوات ترجمة YouTube التلقائية ... أقصد أنها جيدة ولكنها بعيدة عن الكمال. فقط جربها وقم بتشغيل الميزة للفيديو ، وسترى ما أتحدث عنه.
لحسن الحظ ، أصدرت Openai للتو ومصدر نموذج AI قوي جدًا لذلك: Whisper.
إنه يفهم الأشياء التي لا أستطيع حتى أن أفهمها ، وليس كوني متحدثًا باللغة الإنجليزية (استمع في الفيديو) ويعمل على ترجمة اللغة أيضًا!
لقد رأينا نماذج قادرة على أخذ جملة وإنشاء صور. ثم ، مناهج أخرى لمعالجة الصور التي تم إنشاؤها عن طريق تعلم مفاهيم معينة مثل كائن أو نمط معين.
في الأسبوع الماضي ، نشرت Meta نموذج Make-A-Video الذي قمت بتغطيته ، والذي يسمح لك بإنشاء مقطع فيديو قصير أيضًا من جملة نصية. النتائج ليست مثالية بعد ، لكن التقدم الذي أحرزناه في هذا المجال منذ العام الماضي أمر لا يصدق.
هذا الأسبوع نخطو خطوة أخرى إلى الأمام.
إليك DreamFusion ، وهو نموذج أبحاث Google جديد يمكنه فهم جملة بما يكفي لإنشاء نموذج ثلاثي الأبعاد منه. يمكنك أن ترى هذا على أنه انتشار مستقر أو مستقر ولكن في 3D.
إذا كنت تعتقد أن نماذج توليد الصور الحديثة مثل Dalle أو الانتشار المستقر رائع ، فلن تصدق كم هو أمر لا يصدق. "هذا واحد" هو Imagic. يأخذ Imagic مثل هذا النموذج القائم على الانتشار قادر على التقاط النص وإنشاء صور منه وتكييف النموذج لتحرير الصور. يمكنك إنشاء صورة ثم تعليم النموذج لتحريرها بأي طريقة تريدها.
يولد Ediffi ، أحدث طراز Nvidia ، صورًا أفضل وأكثر دقة من جميع الأساليب السابقة مثل Dalle 2 أو الانتشار المستقر. يفهم Ediffi بشكل أفضل النص الذي ترسله وهو أكثر قابلية للتخصيص ، مضيفًا ميزة رأيناها في ورقة سابقة من Nvidia: The Painter Tool.
؟ إذا كنت ترغب في دعم عملي ، فيمكنك التحقق من رعاية هذا المستودع أو دعمني على Patreon.
توليد إطارات جديدة لا حصر لها كما لو كنت ستحلق على صورتك!
Galactica هو نموذج لغة كبير مع حجم مماثل لـ GPT-3 ، ولكنه متخصص في المعرفة العلمية. يمكن للنموذج أن يكتب الأسلوب البيضاء والمراجعات وصفحات ويكيبيديا والرمز. يعرف كيفية الاستشهاد وكيفية كتابة المعادلات. إنه نوع من الصفقة الكبيرة لعلم الذكاء الاصطناعي والعلوم.
من مقطع فيديو واحد ، يمكنهم توليف الشخص الذي يتحدث عن أي كلمة أو جملة في الوقت الفعلي بجودة أفضل. يمكنك تحريك رأس الحديث بعد أي مسار صوتي في الوقت الفعلي.
استحوذت ChatGPT على Twitter وإلى حد كبير الإنترنت بأكمله ، وذلك بفضل قوتها وإمكانات MEME التي توفرها. نعلم جميعًا كيف أن القدرة على توليد الميمات هي أفضل طريقة لقهر الإنترنت ، وبالتالي فقد نجحت.
نظرًا لأنك رأيت العديد من الأمثلة ، فقد تعرف بالفعل أن ChatGpt هو منظمة العفو الدولية التي تم إصدارها مؤخرًا للجمهور من قبل Openai ، يمكنك الدردشة معها. ويطلق عليه أيضًا chatbot ، مما يعني أنه يمكنك التفاعل معه محادثة ، مما يقلل مناقشة إنسانية فردية.
ما قد لا تعرفه هو ما هو عليه وكيف يعمل ... شاهد الفيديو أو قراءة المقالة أو منشور المدونة أدناه لمعرفة المزيد!
سواء كان الأمر ممتعًا في مرشح Snapchat أو لفيلم أو حتى لإزالة بعض التجاعيد ، فلدينا جميعًا فائدة في الاعتبار لتكون قادرة على تغيير عصرنا في صورة.
عادة ما يتم ذلك بواسطة فنانين ماهرين باستخدام Photoshop أو أداة مماثلة لتحرير صورك. الأسوأ ، في مقطع فيديو ، عليهم القيام بهذا النوع من التحرير اليدوي لكل إطار! فقط تخيل مقدار العمل اللازم لذلك. حسنًا ، إليك حل ومشكلة جديدة لهذا الموقف ...؟
إذا كنت ترغب في قراءة المزيد من الأوراق ولديك رؤية أوسع ، فإليك مستودعًا رائعًا آخر لك يغطي 2021: 2021: عام مليء بأوراق الذكاء الاصطناع -مع منشورات جديدة في الذكاء الاصطناعي لعام 2022!
ضع علامة على twitter @whats_ai أو linkedIn @louis (ما هو AI) Bouchard إذا كنت تشارك القائمة!
[1] Suvorov ، R. ، Logacheva ، E. ، Mashikhin ، A. ، Remizova ، A. ، Ashukha ، A. ، Silvestrov ، A. ، Kong ، N. ، Goka ، H. ، Park ، K. خامسا ، 2022. قرار القناع كبير القناع مع تلوينات فورييه. في وقائع المؤتمر الشتوي IEEE/CVF حول تطبيقات رؤية الكمبيوتر (ص. 2149-2159). ، https://arxiv.org/pdf/2109.07161.pdf
[2] تزابان ، ر. ، موكادي ، ر. ، غال ، ر. https://arxiv.org/abs/2201.08361
[3] كوانغ ، ز. https://arxiv.org/pdf/2201.02533.pdf
[4] Borsos ، Z. ، Sharifi ، M. and Tagliasacchi ، M. ، 2022. https://arxiv.org/pdf/2202.07273.pdf
[5] Wang, X., Li, Y., Zhang, H. and Shan, Y., 2021. Towards real-world blind face restoration with generative facial prior. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 9168–9178), https://arxiv.org/pdf/2101.04061.pdf
[6] Piergiovanni, AJ, Casser, V., Ryoo, MS and Angelova, A., 2021. 4d-net for learned multi-modal alignment. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 15435–15445), https://openaccess.thecvf.com/content/ICCV2021/papers/Piergiovanni_4D-Net_for_Learned_Multi-Modal_Alignment_ICCV_2021_paper.pdf.
[7] Thomas Muller, Alex Evans, Christoph Schied and Alexander Keller, 2022, "Instant Neural Graphics Primitives with a Multiresolution Hash Encoding", https://nvlabs.github.io/instant-ngp/assets/mueller2022instant.pdf
[8] A. Ramesh et al., 2022, "Hierarchical Text-Conditional Image Generation with CLIP Latents", https://cdn.openai.com/papers/dall-e-2.pdf
[9] Nitzan, Y., Aberman, K., He, Q., Liba, O., Yarom, M., Gandelsman, Y., Mosseri, I., Pritch, Y. and Cohen-Or, D., 2022. MyStyle: A Personalized Generative Prior. arXiv preprint arXiv:2203.17272.
[10] Zhang, Susan et al. “OPT: Open Pre-trained Transformer Language Models.” https://arxiv.org/abs/2205.01068
[11] Epstein, D., Park, T., Zhang, R., Shechtman, E. and Efros, AA, 2022. BlobGAN: Spatially Disentangled Scene Representations. arXiv preprint arXiv:2205.02837.
[12] Reed S. et al., 2022, Deemind: Gato - A generalist agent, https://storage.googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf
[13] Saharia et al., 2022, Google Brain, Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding, https://gweb-research-imagen.appspot.com/paper.pdf
[14] Dayma, et al., 2021, DALL·E Mini, doi:10.5281/zenodo.5146400
[15] NLLB Team et al., 2022, No Language Left Behind: Scaling Human-Centered Machine Translation
[16] Sheinin, Mark and Chan, Dorian and O'Toole, Matthew and Narasimhan, Srinivasa G., 2022, Dual-Shutter Optical Vibration Sensing, Proc. IEEE CVPR.
[17] Gafni, O., Polyak, A., Ashual, O., Sheynin, S., Parikh, D. and Taigman, Y., 2022. Make-a-scene: Scene-based text-to-image generation with human priors. https://arxiv.org/pdf/2203.13131.pdf
[18] Yang, G., Vo, M., Neverova, N., Ramanan, D., Vedaldi, A. and Joo, H., 2022. Banmo: Building animatable 3d neural models from many casual videos. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 2863-2873).
[19] Rombach, R., Blattmann, A., Lorenz, D., Esser, P. and Ommer, B., 2022. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 10684–10695), https://arxiv.org/pdf/2112.10752.pdf
[20] Yang, J., Ang, YZ, Guo, Z., Zhou, K., Zhang, W. and Liu, Z., 2022. Panoptic Scene Graph Generation. arXiv preprint arXiv:2207.11247.
[21] Gal, R., Alaluf, Y., Atzmon, Y., Patashnik, O., Bermano, AH, Chechik, G. and Cohen-Or, D., 2022. An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion.
[22] Ni, B., Peng, H., Chen, M., Zhang, S., Meng, G., Fu, J., Xiang, S. and Ling, H., 2022. Expanding Language-Image Pretrained Models for General Video Recognition. arXiv preprint arXiv:2208.02816.
[23] Singer et al. (Meta AI), 2022, “MAKE-A-VIDEO: TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA”, https://makeavideo.studio/Make-A-Video.pdf
[24] Radford, A., Kim, JW, Xu, T., Brockman, G., McLeavey, C. and Sutskever, I., Robust Speech Recognition via Large-Scale Weak Supervision.
[25] Poole, B., Jain, A., Barron, JT and Mildenhall, B., 2022. DreamFusion: Text-to-3D using 2D Diffusion. arXiv preprint arXiv:2209.14988.
[26] Kawar, B., Zada, S., Lang, O., Tov, O., Chang, H., Dekel, T., Mosseri, I. and Irani, M., 2022. Imagic: Text-Based Real Image Editing with Diffusion Models. arXiv preprint arXiv:2210.09276.
[27] Balaji, Y. et al., 2022, eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers, https://arxiv.org/abs/2211.01324
[28] Li, Z., Wang, Q., Snavely, N. and Kanazawa, A., 2022. InfiniteNature-Zero: Learning Perpetual View Generation of Natural Scenes from Single Images. In European Conference on Computer Vision (pp. 515–534). Springer, Cham, https://arxiv.org/abs/2207.11148
[29] Taylor et al., 2022: Galactica: A Large Language Model for Science, https://galactica.org/
[30] Tang, J., Wang, K., Zhou, H., Chen, X., He, D., Hu, T., Liu, J., Zeng, G. and Wang, J., 2022. Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial Decomposition. arXiv preprint arXiv:2211.12368.
[31] OpenAI, 2022: ChatGPT: Optimizing Language Models for Dialogue, https://openai.com/blog/chatgpt/
[32] Loss et al., DisneyResearch, 2022: FRAN, https://studios.disneyresearch.com/2022/11/30/production-ready-face-re-aging-for-visual-effects/