حتى مع كل ما حدث في العالم هذا العام ، لا يزال لدينا فرصة لرؤية الكثير من الأبحاث المذهلة. خاصة في مجال الذكاء الاصطناعي. أكثر من ذلك ، تم تسليط الضوء على العديد من الجوانب المهمة هذا العام ، مثل الجوانب الأخلاقية ، والتحيزات المهمة ، وأكثر من ذلك بكثير. تتطور الذكاء الاصطناعي وفهمنا للعقل البشري وارتباطه بمنظمة العفو الدولية باستمرار ، مما يدل على تطبيقات واعدة في المستقبل قريبًا.
فيما يلي أوراق البحث الأكثر إثارة للاهتمام لهذا العام ، في حال فاتتك أي منها. باختصار ، إنها في الأساس قائمة منسقة بأحدث الاختراقات في AI وعلوم البيانات حسب تاريخ الإصدار مع شرح فيديو واضح ، وربط بمقالة أكثر تعمقا ، والرمز (إن أمكن). استمتع بالقراءة!
يتم سرد الإشارة الكاملة إلى كل ورقة في نهاية هذا المستودع.
Saferainer - Louriffb01
اشترك في النشرة الإخبارية الخاصة بي - أشرح آخر التحديثات في الذكاء الاصطناعي كل أسبوع.
؟ تحقق من repo 2021!
لا تتردد في مراسلتي بأي أوراق رائعة فاتني إضافتها إلى هذا المستودع على [email protected]
ضع علامة على twitter @whats_ai أو linkedIn @louis (ما هو AI) Bouchard إذا كنت تشارك القائمة!
أفضل 10 أوراق رؤية كمبيوتر في عام 2020 مع عروض فيديو ومقالات ورمز ومرجع ورقي.
أفضل 10 أوراق رؤية الكمبيوتر 2020
؟ إذا كنت ترغب في دعم عملي واستخدام W & B (مجانًا) لتتبع تجارب ML الخاصة بك وجعل عملك قابلًا للتكرار أو التعاون مع فريق ، فيمكنك تجربته باتباع هذا الدليل! نظرًا لأن معظم التعليمات البرمجية هنا تعتمد على Pytorch ، فقد اعتقدنا أن دليل QuickStart لاستخدام W&B على Pytorch سيكون أكثر إثارة للاهتمام.
اتبع هذا الدليل السريع ، استخدم نفس خطوط W&B في الكود الخاص بك أو أي من Repos أدناه ، وقم بتتبع جميع تجاربك تلقائيًا في حساب W&B الخاص بك! لا يستغرق الأمر أكثر من 5 دقائق لإعداده وسيغير حياتك كما فعلت بالنسبة لي! إليك دليل أكثر تقدماً لاستخدام عمليات عمليات مسح Hyperparameter إذا كانت مهتمة :)
؟ شكرًا لك على Weirds & Biass لرعايتك هذا المستودع والعمل الذي كنت أقوم به ، وبفضل أي منكم يستخدم هذا الرابط ومحاولة W & B!
تم تقديم هذا الإصدار الرابع مؤخرًا في أبريل 2020 من قِبل Alexey Bochkovsky et al. في الورقة "Yolov4: السرعة المثلى ودقة اكتشاف الكائن". كان الهدف الرئيسي من هذه الخوارزمية هو إنشاء كاشف كائن فائق السرعة بجودة عالية من حيث الدقة.
يمكنك الآن إنشاء صور عالية الجودة للوجه من الرسومات الخشنة أو حتى غير المكتملة مع مهارات الرسم صفرية باستخدام تقنية ترجمة الصورة إلى الصورة الجديدة هذه! إذا كانت مهارات الرسم الخاصة بك سيئة مثل لي ، فيمكنك حتى ضبط مقدار العيون والفم والأنف على الصورة النهائية! دعونا نرى ما إذا كان الأمر يعمل حقًا وكيف فعلوا ذلك.
تنتج Gamegan ، وهي شبكة عدوانية توليدية تدريب على 50000 حلقة Pac-Man ، نسخة وظيفية كاملة من كلاسيك Classic دون وجود محرك أساسي.
تقوم هذه الخوارزمية الجديدة بتحويل صورة ضبابية إلى صورة عالية الدقة! قد يستغرق الأمر صورة فائقة الدقة 16x16 وتحويلها إلى وجه بشري عالي الوضوح 1080 بكسل! أنت لا تصدقني؟ ثم يمكنك أن تفعل مثلي وتجربتها على نفسك في أقل من دقيقة! لكن أولاً ، دعونا نرى كيف فعلوا ذلك.
يحول هذا النموذج الجديد الرمز من لغة برمجة إلى أخرى دون أي إشراف! قد يستغرق الأمر وظيفة Python وترجمتها إلى وظيفة C ++ ، والعكس بالعكس ، دون أي أمثلة سابقة! إنه يفهم بناء جملة كل لغة ، وبالتالي يمكنه التعميم على أي لغة برمجة! دعونا نرى كيف فعلوا ذلك.
يولد هذا الذكاء الاصطناعى إعادة بناء ثلاثية الأبعاد للأشخاص من الصور ثنائية الأبعاد! لا يحتاج إلا إلى صورة واحدة لك لإنشاء صورة شخصية ثلاثية الأبعاد تشبهك تمامًا ، حتى من الخلف!
طور الباحثون في ديزني خوارزمية جديدة لتبادل الوجه عالية الدقة للتأثيرات البصرية في الورقة التي تحمل نفس الاسم. إنه قادر على تقديم نتائج واقعية للضوء بدقة Megapixel. العمل في ديزني ، فهي بالتأكيد أفضل فريق لهذا العمل. هدفهم هو تبديل وجه الممثل المستهدف من ممثل مصدر مع الحفاظ على أداء الممثل. هذا أمر صعب بشكل لا يصدق وهو مفيد في العديد من الظروف ، مثل تغيير عمر الطابع ، عندما لا يتوفر الممثل ، أو حتى عندما يتضمن مشهد حيلة سيكون خطيرًا للغاية بالنسبة للممثل الرئيسي لأداء. تتطلب الأساليب الحالية الكثير من الرسوم المتحركة لكل إطار وبعد المعالجة من قبل المحترفين.
يمكن لهذه التقنية الجديدة تغيير نسيج أي صورة مع الحفاظ على واقعية باستخدام التدريب الكامل غير الخاضع للإشراف! تبدو النتائج أفضل من ما يمكن أن تحققه Gans بينما تكون أسرع! يمكن أن تستخدم حتى لإنشاء DeepFakes!
تكافح أنظمة NLP الحديثة التي تعتمد على التعميم للعمل على مهام مختلفة. يجب أن يتم ضبطهم على مجموعات بيانات الآلاف من الأمثلة بينما يحتاج البشر فقط إلى رؤية بعض الأمثلة لأداء مهمة لغة جديدة. كان هذا هو الهدف وراء GPT-3 ، لتحسين خاصية المهام العادلة لنماذج اللغة.
يمكن لهذا الذكاء الاصطناعى ملء البيكسلات المفقودة خلف كائن متحرك تم إزالته وإعادة بناء الفيديو بأكمله بدقة أكبر وأقل ضبابية من الأساليب الحالية!
يمكن لوكالة الذكاء الاصطناعى الجيدة ، مثل تلك المستخدمة في Gmail ، توليد نص متماسك وإنهاء عبارة. هذا واحد يستخدم نفس المبادئ من أجل إكمال الصورة! كل ذلك في تدريب غير خاضع للإشراف مع عدم وجود علامات مطلوبة على الإطلاق!
يمكن لهذا الذكاء الاصطناعى أن يضعف أي صورة أو مقطع فيديو تقوم بإطعامه بأسلوب الرسوم المتحركة التي تريدها! دعونا نرى كيف يفعل ذلك وبعض الأمثلة المذهلة. يمكنك حتى تجربتها على موقع الويب الذي أنشأته كما فعلت بنفسي!
هذا نموذج توليد الوجه قادر على نقل الصور الطبيعية للوجه إلى أنماط مميزة مثل نمط الكرتون Lee Mal-Neeon ، و Simpsons ، والفنون ، وحتى الكلاب! أفضل شيء في هذه التقنية الجديدة هو أنها بسيطة للغاية وتتفوق بشكل كبير على التقنيات السابقة المستخدمة في Gans.
تمثل الخوارزمية شكل الجسم وشكله كشبكة حدودية يمكن إعادة بنائها من صورة واحدة ويتم إعادة توزيعها بسهولة. بالنظر إلى صورة لشخص ما ، فإنهم قادرون على إنشاء صور اصطناعية للشخص في أوضاع مختلفة أو مع ملابس مختلفة تم الحصول عليها من صورة إدخال أخرى.
كان هدفهم هو اقتراح تقنية جديدة لتقدير ثلاثي الأبعاد البشري والشبكة من صورة RGB واحدة. أطلقوا عليها اسم i2l-meshnet. حيث تعني I2L صورة إلى Lixel. تمامًا مثل Voxel ، Volume + Pixel ، عبارة عن خلية كمية في مساحة ثلاثية الأبعاد ، فقد حددوا lixel ، خط ، وبكسل ، كخلية كمية في الفضاء أحادي البعد. تتفوق طريقتهم على الأساليب السابقة والرمز متاح للجمهور!
https://github.com/mks0601/i2l-meshnet_release
التنقل الموجهة باللغة هو مجال تم دراسته على نطاق واسع ومجمع للغاية. في الواقع ، قد يبدو من السهل بالنسبة للإنسان أن يسير عبر منزل للوصول إلى قهوتك التي تركتها في منضبك على يسار سريرك. لكنها قصة أخرى كاملة لوكيل ، وهو نظام مستقل لحكم الذكاء الاصطناعي باستخدام التعلم العميق لأداء المهام.
ECCV 2020 أفضل جائزة الورق يذهب إلى فريق برينستون. لقد طوروا نموذجًا جديدًا قابلاً للتدريب من طرف إلى طرف للتدفق البصري. تتفوق طريقتهم على دقة البنية الحديثة عبر مجموعات بيانات متعددة وهي أكثر كفاءة. حتى أنهم جعلوا الكود متاحًا للجميع على جيثب!
باستخدام صور السياح العامة من الإنترنت ، تمكنوا من إعادة بناء وجهات نظر متعددة للمشهد الذي يحتفظ بالظلال والإضاءة الواقعية! هذا تقدم كبير للتقنيات الحديثة لتقديم المشهد الواقعية ونتائجها ببساطة مذهلة.
تخيل وجود صور قديمة ، مطوية ، وحتى ممزقة لجدتك عندما كانت في الثامنة عشرة من عمرها في البالغة من العمر 18 عامًا مع صفر قطعة أثرية. وهذا ما يسمى Restoration Old Photo Restoration وفتحت هذه الورقة للتو طريقًا جديدًا بالكامل لمعالجة هذه المشكلة باستخدام نهج التعلم العميق.
قام الباحثون من IST Austria و MIT بتدريب سيارة ذاتية القيادة باستخدام نظام ذكاء اصطناعي جديد يعتمد على أدمغة الحيوانات الصغيرة ، مثل الديدان الخيطية. لقد حققوا أنه مع عدد قليل من الخلايا العصبية القادرة على التحكم في السيارة ذاتية القيادة ، مقارنة بملايين الخلايا العصبية التي تحتاجها الشبكات العصبية العميقة الشهيرة مثل البدء أو RESNETs أو VGG. كانت شبكتهم قادرة على التحكم تمامًا في سيارة باستخدام 75000 معلمة فقط ، تتكون من 19 خلية عصبية تحكم ، بدلاً من الملايين!
طور فريق من الباحثين من Adobe Research تقنية جديدة لتوليف التحول العمري استنادًا إلى صورة واحدة فقط من الشخص. يمكن أن يولد صور العمر من أي صورة أرسلتها.
Deoldify هي تقنية لتلوين واستعادة الصور بالأبيض والأسود القديمة أو حتى لقطات الفيلم. تم تطويره ولا يزال يتم تحديثه بواسطة شخص واحد فقط Jason Antic. إنها الآن الطريقة الفنية لتلوين الصور بالأبيض والأسود ، وكل شيء مفتوح المصدر ، لكننا سنعود إلى هذا الأمر قليلاً.
كما ينص الاسم ، فإنه يستخدم المحولات لإنشاء أوصاف نصية دقيقة لكل تسلسل مقطع فيديو ، باستخدام كل من الفيديو والوصف العام له كمدخلات.
تحاكي طريقة الترجمة هذه إلى الرصاص رسامًا حقيقيًا على أنماط متعددة باستخدام نهج جديد لا يتضمن أي بنية GAN ، على عكس جميع الأساليب الحديثة!
تعتبر Human Matting مهمة مثيرة للاهتمام للغاية حيث يكون الهدف هو العثور على أي إنسان في صورة وإزالة الخلفية منه. من الصعب حقًا تحقيقها بسبب تعقيد المهمة ، حيث يجب العثور على الشخص أو الأشخاص ذوي الكفاف المثالي. في هذا المنشور ، أراجع أفضل التقنيات المستخدمة على مر السنين ونهج جديد نشر في 29 نوفمبر 2020. تستخدم العديد من التقنيات خوارزميات رؤية الكمبيوتر الأساسية لتحقيق هذه المهمة ، مثل خوارزمية GrabCut ، وهي سريعة للغاية ، ولكن ليس للغاية ، ولكن ليس دقيق جدا.
مع طريقة التدريب الجديدة هذه التي طورتها NVIDIA ، يمكنك تدريب نموذج توليدي قوي مع عُشر الصور! جعل العديد من التطبيقات التي لا يمكنها الوصول إلى العديد من الصور!
مع طريقة التدريب الجديدة هذه التي طورتها NVIDIA ، يمكنك تدريب نموذج توليدي قوي مع عُشر الصور! جعل العديد من التطبيقات التي لا يمكنها الوصول إلى العديد من الصور!
هذه الطريقة الجديدة قادرة على إنشاء مشهد ثلاثي الأبعاد كامل ولديه القدرة على تحديد إضاءة المشهد. كل هذا مع تكاليف حساب محدودة للغاية ونتائج مذهلة مقارنة بالمناهج السابقة.
؟ تحقق من repo 2021!
ضع علامة على twitter @whats_ai أو linkedIn @louis (ما هو AI) Bouchard إذا كنت تشارك القائمة!
[1] A. Bochkovskiy ، C.-y. Wang ، و H.-ym Liao ، Yolov4: السرعة المثلى ودقة الكشف عن الكائنات ، 2020. Arxiv: 2004.10934 [Cs.CV].
[2] S.-Y. Chen ، W. Su ، L. Gao ، S. Xia ، and H. Fu ، "DeepfacedRawing: Generation Generation of Face Fort of Sketches ،" ACM Transactions on Graphics (Proceedings of ACM Siggraph2020) ، vol. 39 ، لا. 4 ، 72: 1–72: 16 ، 2020.
[3] SW Kim ، Y. Zhou ، J. Philion ، A. Torralba ، and S. Fidler ، "تعلم محاكاة البيئات الديناميكية مع Gamegan" ، في مؤتمر IEEE حول رؤية الكمبيوتر والتعرف على الأنماط (CVPR) ، 2020.
[4] S. Menon ، A. Damian ، S. Hu ، N. Ravi ، and C. Rudin ، Pulse: photo selected self-upsampling عبر استكشاف الفضاء الكامن للنماذج التوليدية ، 2020. Arxiv: 2003.03808 [CS.CV].
[5] م. Lachaux ، B. Roziere ، L. Chanussot ، and G. Lample ، ترجمة غير خاضعة للإشراف لغات البرمجة ، 2020. Arxiv: 2006.03511 [C.CL].
[6] S. Saito ، T. Simon ، J. Saragih ، و H. Joo ، Pifuhd: وظيفة ضمنية متعددة المستويات ذات المستوى الأثرياء للرقمنة البشرية عالية الدقة ، 2020. Arxiv: 2004.00452 [Cs.CV].
[7] J. Naruniec ، L. Helminger ، C. Schroers ، and R. Weber ، "Respipping Neural Neural Face For Effects" ، Computer Graphics Forum ، المجلد. 39 ، ص. 173-184 ، يوليو 2020.doi: 10.1111/cgf.14062.
[8] T. Park ، J.-Y. Zhu ، O. Wang ، J. Lu ، E. Shechtman ، AA Efros ، and R. Zhang ، Sbappingautoencoder لمعالجة الصور العميقة ، 2020. Arxiv: 2007.00653 [Cs.CV].
[9] TB Brown ، B. Mann ، N. Ryder ، M. Subbiah ، J. Kaplan ، P. Dhariwal ، A. Neelakantan ، P.Shyam ، G. Sastry ، A. Askell ، S. Agarwal ، A. Herbert- Voss ، G. Krueger ، T. Henighan ، R. Child ، A. Ramesh ، DM Ziegler ، J. Wu ، C. Winter ، C. Hesse ، M. Chen ، E. Sigler ، M. Litwin ، S.Gray ، B. Chess ، J. Clark ، C. Berner ، S. McCandlish ، A. Radford ، I. Sutskever ، و D. Amodei ، "نماذج اللغة هي متعلمين قليلون ،" 2020 .
[10] Y. Zeng ، J. Fu ، و H. Chao ، تعلم التحولات الزمانية المكانية المشتركة للفيديو داخل الرصاص ، 2020. Arxiv: 2007.10247 [Cs.CV].
[11] M. Chen ، A. Radford ، R. Child ، J. Wu ، H. Jun ، D. Luan ، and I. Sutskever ، HD III و A. Singh ، محرران ، سير. وقائع أبحاث التعلم الآلي ، المجلد. 119 ، افتراضي: PMLR ، 13-18 يوليو 2020 ، ص. 1691-1703. [متصل]. متاح: http: //procedeings.mlr.press/v119/chen20s.html.
[12] Xinrui Wang و Jinze Yu ، "تعلمون الكارتونية باستخدام تمثيلات الرسوم المتحركة ذات الصندوق الأبيض." ، مؤتمر IEEE حول رؤية الكمبيوتر والتعرف على الأنماط ، يونيو 2020.
[13] S. Mo ، M. Cho ، and J. Shin ، تجميد التمييز: خط أساس بسيط لضبط Gans ، 2020. ARXIV: 2002.10964 [CS.CV].
[14] K. Sarkar ، D. Mehta ، W. Xu ، V. Golyanik ، و C. Theobalt ، "إعادة تقديم البشر العصبية من صورة واحدة" ، في المؤتمر الأوروبي حول رؤية الكمبيوتر (ECCV) ، 2020.
[15] G. Moon و KM Lee ، "I2L-Meshnet: شبكة تنبؤ صورة إلى ليكسل للحصول على تقدير دقيق للتشكيل البشري ثلاثي الأبعاد من صورة RGB واحدة" ، في المؤتمر الأوروبي حول Computervision (ECCV) ، 2020
[16] J. Krantz ، E. Wijmans ، A. Majumdar ، D. Batra ، and S. Lee ، "Beyond the Nav-Graph: الرؤية واللغة في البيئات المستمرة ،" 2020. Arxiv: 2004.02857 [CS. السيرة الذاتية].
[17] Z. Teed and J. Deng ، Raft: يتحول حقل All-Pairs المتكرر للتدفق البصري ، 2020. Arxiv: 2003.12039 [Cs.CV].
[18] Z. Li ، W. Xian ، A. Davis ، and N. Snavely ، "Crowdsampling the Plenoptic Function ،" Inproc.european on Computer Vision (ECCV) ، 2020.
[19] Z. Wan ، B. Zhang ، D. Chen ، P. Zhang ، D. Chen ، J. Liao ، and F. Wen ، Old Photo Restoration عبر ترجمة الفضاء الكامنة العميقة ، 2020. Arxiv: 2009.07047 [Cs.CV ].
[20] Lechner ، M. ، Hasani ، R. ، Amini ، A. et al. سياسات الدائرة العصبية التي تتيح استقلالية قابلة للتدقيق. Nat Mach Intell 2 ، 642–652 (2020). https://doi.org/10.1038/S42256-020-00237-3
[21] R. Or-El ، S. Sengupta ، O. Fried ، E. Shechtman ، and I. Kemelmacher-Shlizerman ، "Synthesis Transformation Lifespanage ،" في وقائع المؤتمر الأوروبي حول رؤية الكمبيوتر (ECCV) ، 2020.
[22] جيسون Antic ، منشئ Deoldify ، https://github.com/jantic/Deoldify
[23] S. Ging ، M. Zolfaghari ، H. Pirsiavash ، و T. Brox ، "Coot: Cooperative Hierarchical Trans-Former لتعلم تمثيل النص للفيديو" ، في مؤتمر حول عملية المعلومات العصبية ، 2020.
[24] Z. Zou ، T. Shi ، S. Qiu ، Y. Yuan ، and Z. Shi ، Plaint Neural Painting ، 2020. Arxiv: 2011.08114 [Cs.CV].
[25] Z. Ke ، K. Li ، Y. Zhou ، Q. Wu ، X. Mao ، Q. Yan ، و RW Lau ، "هل الشاشة الخضراء ضرورية حقًا لتصوير الصورة في الوقت الفعلي؟" Arxiv ، المجلد. ABS/2011.11961 ، 2020.
[26] T. Karras ، M. Aittala ، J. Hellsten ، S. Laine ، J. Lehtinen ، و T. Aila ، شبكات تدريبات تعديمي مع بيانات محدودة ، 2020. Arxiv: 2006.06676 [CS.CV].
[27] Ja Weyn ، Dr Durran ، و R. Caruana ، "تحسين التنبؤ بالطقس العالمي القائم على البيانات باستخدام الشبكات العصبية التلافيفية العميقة على مجال مكعب" ، مجلة التقدم في نمذجة أنظمة الأرض ، المجلد. 12 ، لا. 9 ، سبتمبر 2020 ، ISSN: 1942–2466.Doi: 10.1029/2020ms002109
[28] PP Srinivasan ، B. Deng ، X. Zhang ، M. Tancik ، B. Mildenhall ، and JT Barron ، "Nerv: Near Gearsance and Visibility Fields for Relighting and View Synthesis ،" في Arxiv ، 2020.