ในขณะที่โลกยังคงฟื้นตัวการวิจัยไม่ได้ชะลอความเร็วที่รุนแรงโดยเฉพาะอย่างยิ่งในด้านปัญญาประดิษฐ์ ยิ่งไปกว่านั้นมีการเน้นประเด็นสำคัญมากมายในปีนี้เช่นด้านจริยธรรมอคติที่สำคัญการกำกับดูแลความโปร่งใสและอื่น ๆ อีกมากมาย ปัญญาประดิษฐ์และความเข้าใจของเราเกี่ยวกับสมองมนุษย์และการเชื่อมโยงไปยัง AI นั้นมีการพัฒนาอย่างต่อเนื่องแสดงให้เห็นว่าแอพพลิเคชั่นที่มีแนวโน้มปรับปรุงคุณภาพชีวิตของเราในอนาคตอันใกล้ ถึงกระนั้นเราควรระวังเทคโนโลยีที่เราเลือกใช้
"วิทยาศาสตร์ไม่สามารถบอกเราได้ว่าเราควรทำอะไรเฉพาะสิ่งที่เราสามารถทำได้"
- Jean-Paul Sartre เป็นและความว่างเปล่า
นี่คือรายการที่รวบรวมของความก้าวหน้าล่าสุดใน AI และวิทยาศาสตร์ข้อมูลโดยวันที่วางจำหน่ายพร้อมคำอธิบายวิดีโอที่ชัดเจนลิงก์ไปยังบทความเชิงลึกเพิ่มเติมและรหัส (ถ้ามี) สนุกกับการอ่าน!
การอ้างอิงที่สมบูรณ์ของแต่ละกระดาษมีการระบุไว้ในตอนท้ายของที่เก็บนี้ แสดงที่เก็บนี้เพื่อติดตามข่าวสารล่าสุดและติดตามความคืบหน้าในปีหน้า!
ผู้ดูแล: LouisfB01 ยังใช้งานอยู่บน YouTube และเป็น podcaster หากคุณต้องการเห็น/ได้ยินเพิ่มเติมเกี่ยวกับ AI!
สมัครรับจดหมายข่าวของฉัน - การอัปเดตล่าสุดใน AI อธิบายทุกสัปดาห์
อย่าลังเลที่จะส่งข้อความถึงกระดาษที่น่าสนใจที่ฉันอาจพลาดที่จะเพิ่มลงในที่เก็บนี้
แท็กฉันบน Twitter @whats_ai หรือ LinkedIn @louis (AI คืออะไร) Bouchard ถ้าคุณแชร์รายการ! และมาคุยกับเราในชุมชนเรียนรู้ AI ร่วมกันของเรา!
- หากคุณต้องการสนับสนุนงานของฉัน คุณสามารถตรวจสอบเพื่อสนับสนุนที่เก็บนี้หรือสนับสนุนฉันใน Patreon
แน่นอนที่สุดคุณเคยประสบกับสถานการณ์นี้ครั้งเดียว: คุณถ่ายภาพที่ยอดเยี่ยมกับเพื่อนของคุณและมีคนกำลังถ่ายภาพอยู่ข้างหลังคุณทำลายโพสต์ Instagram ในอนาคตของคุณ นั่นไม่ใช่ปัญหาอีกต่อไป ไม่ว่าจะเป็นคนหรือถังขยะที่คุณลืมที่จะลบออกก่อนที่จะถ่ายเซลฟี่ที่ทำลายภาพของคุณ AI นี้จะลบวัตถุหรือบุคคลที่ไม่พึงประสงค์โดยอัตโนมัติในภาพและบันทึกโพสต์ของคุณโดยอัตโนมัติ มันเหมือนกับนักออกแบบ Photoshop มืออาชีพในกระเป๋าของคุณและด้วยการคลิกง่าย ๆ !
งานนี้ในการลบส่วนหนึ่งของภาพและแทนที่ด้วยสิ่งที่ควรปรากฏอยู่เบื้องหลังได้รับการจัดการโดยนักวิจัย AI หลายคนเป็นเวลานาน มันเรียกว่า Image Inpainting และมันท้าทายอย่างยิ่ง ...
แน่นอนว่าคุณเคยเห็นภาพยนตร์อย่าง Captain Marvel หรือ Gemini Man ล่าสุดที่ Samuel L Jackson และ Will Smith ดูเหมือนว่าพวกเขาอายุน้อยกว่ามาก สิ่งนี้ต้องใช้เวลาหลายร้อยชั่วโมงในการทำงานจากมืออาชีพในการแก้ไขฉากที่เขาปรากฏตัวด้วยตนเองแทนคุณสามารถใช้ AI ง่าย ๆ และทำภายในไม่กี่นาที แน่นอนเทคนิคมากมายช่วยให้คุณเพิ่มรอยยิ้มทำให้คุณดูอ่อนกว่าวัยหรือแก่กว่าทั้งหมดโดยใช้อัลกอริทึมที่ใช้ AI โดยอัตโนมัติ มันถูกเรียกว่าการจัดการใบหน้าที่ใช้ AI ในวิดีโอและนี่คือสถานะปัจจุบันของศิลปะในปี 2022!
การเรนเดอร์ระบบประสาท การเรนเดอร์ระบบประสาทคือความสามารถในการสร้างแบบจำลองแสงในอวกาศเช่นนี้จากภาพของวัตถุบุคคลหรือฉากที่น่าสนใจ ในกรณีนี้คุณจะมีรูปภาพจำนวนหนึ่งของประติมากรรมนี้และขอให้เครื่องเข้าใจว่าวัตถุในรูปภาพเหล่านี้ควรมีลักษณะอย่างไรในอวกาศ โดยทั่วไปคุณกำลังขอให้เครื่องเข้าใจฟิสิกส์และรูปร่างออกมาจากภาพ นี่เป็นเรื่องง่ายสำหรับเราเพราะเรารู้เพียงโลกแห่งความจริงและความลึก แต่มันเป็นความท้าทายอื่น ๆ ทั้งหมดสำหรับเครื่องที่เห็นพิกเซลเท่านั้น เป็นเรื่องดีที่โมเดลที่สร้างขึ้นนั้นดูแม่นยำด้วยรูปร่างที่สมจริง แต่สิ่งที่เกี่ยวกับวิธีการผสมผสานในฉากใหม่? และถ้าสภาพแสงแตกต่างกันไปในรูปภาพที่ถ่ายและโมเดลที่สร้างขึ้นจะดูแตกต่างกันไปขึ้นอยู่กับมุมที่คุณมอง สิ่งนี้จะดูแปลก ๆ และไม่สมจริงโดยอัตโนมัติ นี่คือความท้าทาย Snapchat และมหาวิทยาลัยเซาเทิร์นแคลิฟอร์เนียโจมตีในการวิจัยใหม่นี้
เราได้เห็นภาพ Inpainting ซึ่งมีจุดมุ่งหมายเพื่อลบวัตถุที่ไม่พึงประสงค์ออกจากรูปภาพ เทคนิคที่ใช้การเรียนรู้ของเครื่องไม่เพียงแค่ลบวัตถุ แต่พวกเขายังเข้าใจภาพและเติมส่วนที่หายไปของภาพด้วยสิ่งที่พื้นหลังควรมีลักษณะ ความก้าวหน้าล่าสุดนั้นเหลือเชื่อเช่นเดียวกับผลลัพธ์และงาน Inpainting นี้อาจมีประโยชน์มากสำหรับแอปพลิเคชันจำนวนมากเช่นโฆษณาหรือปรับปรุงโพสต์ Instagram ในอนาคตของคุณ นอกจากนี้เรายังครอบคลุมงานที่ท้าทายยิ่งขึ้น: วิดีโอ inpainting ซึ่งกระบวนการเดียวกันนี้ถูกนำไปใช้กับวิดีโอเพื่อลบวัตถุหรือผู้คน
ความท้าทายเกี่ยวกับวิดีโอมาพร้อมกับการพักที่สอดคล้องกันจากเฟรมหนึ่งไปอีกเฟรมโดยไม่ต้องทำสิ่งประดิษฐ์บั๊กกี้ แต่ตอนนี้จะเกิดอะไรขึ้นถ้าเราลบบุคคลออกจากภาพยนตร์อย่างถูกต้องและเสียงยังคงไม่เปลี่ยนแปลง? เราอาจได้ยินผีและทำลายงานทั้งหมดของเรา
นี่คือที่ที่งานที่ฉันไม่เคยกล่าวไว้ในช่องของฉันเข้ามา: คำพูดไม่ดี คุณได้ยินมาถูกต้องนักวิจัยจาก Google เพิ่งตีพิมพ์บทความที่มีจุดมุ่งหมายในการพูดแบบ inpainting และอย่างที่เราจะเห็นผลลัพธ์ค่อนข้างน่าประทับใจ โอเคเราอาจจะได้ยินมากกว่าเห็นผลลัพธ์ แต่คุณได้รับประเด็น มันสามารถแก้ไขไวยากรณ์การออกเสียงหรือแม้แต่ลบเสียงรบกวนพื้นหลัง ทุกสิ่งที่ฉันต้องการอย่างแน่นอนเพื่อทำงานต่อไปหรือ ... เพียงแค่ใช้โมเดลใหม่ของพวกเขา ... ฟังตัวอย่างในวิดีโอของฉัน!
คุณมีรูปเก่า ๆ ของตัวเองหรือปิดที่ไม่อายุไม่ดีหรือว่าคุณหรือพ่อแม่ของคุณถ่ายก่อนที่เราจะสามารถสร้างภาพคุณภาพสูงได้หรือไม่? ฉันทำและฉันรู้สึกว่าความทรงจำเหล่านั้นได้รับความเสียหายตลอดไป เด็กชายฉันผิด!
รุ่น AI ใหม่และฟรีนี้สามารถแก้ไขรูปภาพเก่าส่วนใหญ่ของคุณได้ในเสี้ยววินาที มันทำงานได้ดีแม้จะมีอินพุตที่ต่ำหรือคุณภาพสูงซึ่งโดยทั่วไปแล้วจะค่อนข้างท้าทาย
บทความในสัปดาห์นี้เรียกร้องให้มีการฟื้นฟูใบหน้าตาบอดในโลกแห่งความเป็นจริงด้วยการสร้างใบหน้าก่อนหน้านี้จะจัดการกับงานฟื้นฟูภาพถ่ายด้วยผลลัพธ์ที่โดดเด่น สิ่งที่เย็นกว่าก็คือคุณสามารถลองด้วยตัวเองและในแบบที่คุณต้องการ พวกเขาได้เปิดรหัสของพวกเขาสร้างการสาธิตและแอปพลิเคชันออนไลน์เพื่อให้คุณลองตอนนี้ หากผลลัพธ์ที่คุณเห็นข้างต้นไม่น่าเชื่อพอเพียงดูวิดีโอและแจ้งให้เราทราบว่าคุณคิดอย่างไรในความคิดเห็นฉันรู้ว่ามันจะทำให้คุณนึกถึง!
ยานพาหนะอิสระมองเห็นได้อย่างไร?
คุณอาจเคยได้ยินเซ็นเซอร์ LiDAR หรือกล้องแปลก ๆ อื่น ๆ ที่พวกเขาใช้ แต่พวกเขาทำงานอย่างไรพวกเขาจะเห็นโลกและพวกเขาเห็นอะไรเมื่อเทียบกับเรา? การทำความเข้าใจวิธีการทำงานของพวกเขาเป็นสิ่งจำเป็นหากเราต้องการวางไว้บนท้องถนนเป็นหลักถ้าคุณทำงานในรัฐบาลหรือสร้างกฎระเบียบต่อไป แต่ยังเป็นลูกค้าของบริการเหล่านี้
ก่อนหน้านี้เราได้กล่าวถึงวิธีที่ Tesla Autopilot เห็นและทำงาน แต่พวกเขาแตกต่างจากยานพาหนะอัตโนมัติแบบดั้งเดิม เทสลาใช้กล้องเพื่อทำความเข้าใจโลกในขณะที่ส่วนใหญ่เช่น Waymo ใช้กล้องทั่วไปและเซ็นเซอร์ LiDAR 3D เซ็นเซอร์ LIDAR เหล่านี้ค่อนข้างง่ายที่จะเข้าใจ: พวกเขาจะไม่สร้างภาพเช่นกล้องทั่วไป แต่มีเมฆจุด 3 มิติ กล้อง LiDAR วัดระยะห่างระหว่างวัตถุคำนวณเวลาเดินทางของเลเซอร์พัลส์ที่คาดการณ์ไว้กับวัตถุ
ถึงกระนั้นเราจะรวมข้อมูลนี้อย่างมีประสิทธิภาพและให้ยานพาหนะเข้าใจได้อย่างไร? แล้วยานพาหนะจบลงด้วยการเห็นอะไร? คะแนนเพียงทุกที่? มันเพียงพอสำหรับการขับรถบนถนนของเราหรือไม่? เราจะตรวจสอบสิ่งนี้ด้วยรายงานการวิจัยใหม่โดย Waymo และ Google Research ...
ราวกับว่าการถ่ายภาพไม่ใช่ความกล้าหาญทางเทคโนโลยีที่ท้าทายมากพอตอนนี้เรากำลังทำสิ่งที่ตรงกันข้าม: การสร้างแบบจำลองโลกจากรูปภาพ ฉันได้ครอบคลุมโมเดล AI ที่น่าทึ่งซึ่งสามารถถ่ายภาพและเปลี่ยนเป็นฉากที่มีคุณภาพสูง งานที่ท้าทายที่ประกอบด้วยการถ่ายภาพสองสามภาพในโลกภาพ 2 มิติเพื่อสร้างวิธีการที่วัตถุหรือบุคคลจะมองในโลกแห่งความเป็นจริง
ถ่ายภาพสองสามภาพและมีแบบจำลองที่สมจริงทันทีเพื่อแทรกลงในผลิตภัณฑ์ของคุณ มันเจ๋งแค่ไหน!
ผลลัพธ์ได้รับการปรับปรุงอย่างมากในรุ่นแรกที่ฉันครอบคลุมในปี 2020 เรียกว่า NERF และการปรับปรุงนี้ไม่ได้เกี่ยวกับคุณภาพของผลลัพธ์เท่านั้น Nvidia ทำให้ดียิ่งขึ้น
ไม่เพียง แต่คุณภาพจะเทียบเคียงได้ถ้าไม่ดีกว่า แต่มันเร็วกว่า 1,000 เท่าโดยมีการวิจัยน้อยกว่าสองปี
ปีที่แล้วฉันแบ่งปัน Dall · E ซึ่งเป็นโมเดลที่น่าทึ่งโดย OpenAI ที่สามารถสร้างภาพจากอินพุตข้อความที่มีผลลัพธ์ที่เหลือเชื่อ ตอนนี้เป็นเวลาสำหรับพี่ใหญ่ของเขา Dall · E 2 และคุณจะไม่เชื่อความคืบหน้าในปีเดียว! Dall · E 2 ไม่เพียง แต่จะดีกว่าในการสร้างภาพแสงจากข้อความ ผลลัพธ์คือความละเอียดสี่เท่า!
ราวกับว่ามันยังไม่น่าประทับใจพอรุ่นล่าสุดได้เรียนรู้ทักษะใหม่ ภาพ inpainting
Dall · E สามารถสร้างภาพจากอินพุตข้อความ
Dall · E 2 สามารถทำได้ดีกว่า แต่มันไม่ได้หยุดอยู่แค่นั้น นอกจากนี้ยังสามารถแก้ไขภาพเหล่านั้นและทำให้ดูดียิ่งขึ้น! หรือเพียงแค่เพิ่มคุณสมบัติที่คุณต้องการเช่นฟลามิงโกในพื้นหลัง
ฟังดูน่าสนใจ? เรียนรู้เพิ่มเติมในวิดีโอหรืออ่านเพิ่มเติมด้านล่าง!
รูปแบบใหม่นี้โดย Google Research และ Tel-Aviv University นั้นเหลือเชื่อ คุณสามารถเห็นว่ามันเป็น deepfake ที่ทรงพลังมากที่สามารถทำอะไรก็ได้
ถ่ายภาพบุคคลหนึ่งร้อยคนและคุณมีการเข้ารหัสบุคลิกเพื่อแก้ไขแก้ไขหรือสร้างภาพที่เป็นจริงที่คุณต้องการ
นี่เป็นทั้งที่น่าทึ่งและน่ากลัวถ้าคุณถามฉันโดยเฉพาะอย่างยิ่งเมื่อคุณดูผลลัพธ์ ดูวิดีโอเพื่อดูผลลัพธ์เพิ่มเติมและเข้าใจว่าโมเดลทำงานอย่างไร!
ตรวจสอบสิ่งที่ AI Podcast สำหรับเนื้อหา AI เพิ่มเติมในรูปแบบของการสัมภาษณ์กับผู้เชี่ยวชาญในสาขานี้! ผู้เชี่ยวชาญ AI ที่ได้รับเชิญและฉันจะครอบคลุมหัวข้อเฉพาะสาขาย่อยและบทบาทที่เกี่ยวข้องกับ AI เพื่อสอนและแบ่งปันความรู้จากผู้คนที่ทำงานอย่างหนักเพื่อรวบรวม
เราทุกคนเคยได้ยินเกี่ยวกับ GPT-3 และมีความคิดที่ชัดเจนเกี่ยวกับความสามารถของมัน แน่นอนว่าคุณเคยเห็นแอปพลิเคชันบางอย่างที่เกิดขึ้นอย่างเคร่งครัดเนื่องจากรุ่นนี้ซึ่งบางอย่างที่ฉันกล่าวถึงในวิดีโอก่อนหน้านี้เกี่ยวกับโมเดล GPT-3 เป็นแบบจำลองที่พัฒนาโดย OpenAI ที่คุณสามารถเข้าถึงได้ผ่าน API ที่ชำระเงิน แต่ไม่สามารถเข้าถึงโมเดลได้
สิ่งที่ทำให้ GPT-3 แข็งแกร่งมากทั้งสถาปัตยกรรมและขนาด มันมีพารามิเตอร์ 175 พันล้าน จำนวนเซลล์ประสาทที่เรามีในสมองสองเท่า! เครือข่ายอันยิ่งใหญ่นี้ได้รับการฝึกฝนบนอินเทอร์เน็ตทั้งหมดเพื่อทำความเข้าใจว่าเราเขียนแลกเปลี่ยนและเข้าใจข้อความอย่างไร สัปดาห์นี้ Meta ได้ก้าวไปข้างหน้าอย่างมากสำหรับชุมชน พวกเขาเพิ่งเปิดตัวโมเดลที่ทรงพลังหากไม่มากและมีแหล่งที่มาอย่างสมบูรณ์
Blobgan อนุญาตให้มีการจัดการภาพที่ไม่เป็นจริงทำให้การควบคุม blobs ง่าย ๆ ได้อย่างง่ายดาย blobs ขนาดเล็กทั้งหมดเหล่านี้เป็นตัวแทนของวัตถุและคุณสามารถเคลื่อนย้ายไปรอบ ๆ หรือทำให้มันใหญ่ขึ้นเล็กลงหรือลบออกและมันจะมีผลเช่นเดียวกันกับวัตถุที่แสดงในภาพ มันเจ๋งมาก!
ในขณะที่ผู้เขียนแบ่งปันในผลลัพธ์ของพวกเขาคุณสามารถสร้างภาพนวนิยายโดยการทำซ้ำ blobs สร้างภาพที่มองไม่เห็นในชุดข้อมูลเช่นห้องที่มีพัดลมเพดานสอง! แก้ไขให้ฉันถ้าฉันผิด แต่ฉันเชื่อว่ามันเป็นหนึ่งในนั้นถ้าไม่ใช่ครั้งแรกกระดาษที่จะทำการปรับเปลี่ยนภาพที่ง่ายเหมือนการเคลื่อนย้าย blobs ไปรอบ ๆ และอนุญาตให้แก้ไขที่มองไม่เห็นในชุดข้อมูลการฝึกอบรม
และคุณสามารถเล่นกับ บริษัท นี้ได้จริงเมื่อเทียบกับบาง บริษัท ที่เราทุกคนรู้จัก! พวกเขาแบ่งปันรหัสของพวกเขาแบบสาธารณะและการสาธิต colab ที่คุณสามารถลองได้ทันที สิ่งที่น่าตื่นเต้นยิ่งกว่านั้นคือวิธีการทำงานของ Blobgan เรียนรู้เพิ่มเติมในวิดีโอ!
Gato จาก DeepMind เพิ่งเผยแพร่! มันเป็นหม้อแปลงเดียวที่สามารถเล่นเกมอาตาริภาพคำบรรยายภาพแชทกับผู้คนควบคุมแขนหุ่นยนต์จริงและอีกมากมาย! อันที่จริงมันได้รับการฝึกฝนครั้งเดียวและใช้น้ำหนักเดียวกันเพื่อให้ได้งานเหล่านั้นทั้งหมด และตาม DeepMind นี่ไม่เพียง แต่เป็นหม้อแปลง แต่ยังเป็นตัวแทน นี่คือสิ่งที่เกิดขึ้นเมื่อคุณผสมหม้อแปลงกับความคืบหน้าของตัวแทนการเรียนรู้การเสริมแรงแบบหลายงาน
Gato เป็นตัวแทนหลายรูปแบบ หมายความว่ามันสามารถสร้างคำอธิบายภาพสำหรับรูปภาพหรือตอบคำถามเป็น chatbot คุณจะบอกว่า GPT-3 สามารถทำได้แล้ว แต่ Gato สามารถทำอะไรได้มากกว่านี้ ... ความหลากหลายมาจากความจริงที่ว่า Gato สามารถเล่นเกมอาตาริในระดับมนุษย์หรือแม้แต่งานในโลกแห่งความจริงเช่นการควบคุมแขนหุ่นยนต์ ย้ายวัตถุอย่างแม่นยำ มันเข้าใจคำพูดภาพและแม้แต่ฟิสิกส์ ...
หากคุณคิดว่า Dall-E 2 มีผลลัพธ์ที่ยอดเยี่ยมรอจนกว่าคุณจะเห็นว่ารุ่นใหม่นี้จาก Google Brain สามารถทำอะไรได้บ้าง
Dalle-E นั้นน่าทึ่ง แต่มักจะขาดความสมจริงและนี่คือสิ่งที่ทีมโจมตีด้วยโมเดลใหม่ที่เรียกว่า Imagen
พวกเขาแบ่งปันผลลัพธ์จำนวนมากในหน้าโครงการของพวกเขารวมถึงเกณฑ์มาตรฐานซึ่งพวกเขาแนะนำสำหรับการเปรียบเทียบโมเดลข้อความกับภาพซึ่งพวกเขามีประสิทธิภาพสูงกว่า Dall-e 2 และวิธีการสร้างภาพก่อนหน้า เรียนรู้เพิ่มเติมในวิดีโอ ...
Dalle Mini น่าทึ่งมาก - และคุณสามารถใช้มันได้!
ฉันแน่ใจว่าคุณเคยเห็นรูปภาพเหมือนในฟีด Twitter ของคุณในช่วงไม่กี่วันที่ผ่านมา หากคุณสงสัยว่าพวกเขาคืออะไรพวกเขาจะเป็นภาพที่สร้างขึ้นโดย AI ที่เรียกว่า Dall · E Mini หากคุณไม่เคยเห็นสิ่งเหล่านั้นคุณต้องดูวิดีโอนี้เพราะคุณพลาดไป หากคุณสงสัยว่าสิ่งนี้เป็นไปได้อย่างไรคุณอยู่ในวิดีโอที่สมบูรณ์แบบและจะรู้คำตอบในเวลาไม่ถึงห้านาที
Dalle Mini เป็น AI โอเพ่นซอร์สฟรีที่สร้างภาพที่น่าทึ่งจากอินพุตข้อความ
โมเดลล่าสุดของ Meta AI ที่เรียกว่า "No Language Left Behind" ทำอย่างนั้น: แปลผ่าน 200 ภาษาที่แตกต่างกันด้วยคุณภาพที่ทันสมัย รุ่นเดียวสามารถจัดการ 200 ภาษา ช่างเหลือเชื่อแค่ไหน?
เราพบว่ามันยากที่จะได้ผลลัพธ์ที่ยอดเยี่ยมในภาษาอังกฤษอย่างเคร่งครัดในขณะที่ Meta กำลังจัดการกับภาษาที่แตกต่างกัน 200 ภาษาด้วยโมเดลเดียวกันและบางภาษาที่ซับซ้อนและเป็นตัวแทนน้อยที่สุดที่ Google แปลการต่อสู้ด้วย ...
พวกเขาสร้างเสียงขึ้นใหม่โดยใช้กล้องและลำแสงเลเซอร์บนพื้นผิวที่สั่นสะเทือนใด ๆ ทำให้พวกเขาสามารถแยกเครื่องดนตรีดนตรีมุ่งเน้นไปที่ลำโพงที่เฉพาะเจาะจงลบเสียงรอบข้างและแอพพลิเคชั่นที่น่าตื่นตาตื่นใจอีกมากมาย
Make-a-scene ไม่ใช่“ เพียงแค่ Dalle” เป้าหมายของโมเดลใหม่นี้ไม่อนุญาตให้ผู้ใช้สร้างภาพสุ่มตามข้อความข้อความตามที่ Dalle ทำ - ซึ่งเจ๋งจริง ๆ - แต่ จำกัด การควบคุมผู้ใช้ในรุ่น
แต่เมตาต้องการผลักดันการแสดงออกที่สร้างสรรค์ไปข้างหน้าโดยรวมเทรนด์ข้อความกับภาพเข้ากับโมเดลร่างเพื่อภาพร่างก่อนหน้านี้ซึ่งนำไปสู่ "การสร้างภาพ": การผสมผสานที่ยอดเยี่ยมระหว่างการสร้างข้อความและการสร้างภาพร่าง
สร้างโมเดล 3D ที่เปลี่ยนรูปได้จากรูปภาพด้วย Banmo!
รูปแบบภาพที่ทรงพลังสุด ๆ เช่น Dalle, Imagen หรือ Midjourney มีอะไรเหมือนกัน? นอกเหนือจากค่าใช้จ่ายในการคำนวณที่สูงเวลาการฝึกอบรมที่ยิ่งใหญ่และ hype ที่ใช้ร่วมกันพวกเขาทั้งหมดอยู่บนพื้นฐานของกลไกเดียวกัน: การแพร่กระจาย เมื่อเร็ว ๆ นี้โมเดลการแพร่กระจายได้ผลลัพธ์ที่ล้ำสมัยสำหรับงานภาพส่วนใหญ่รวมถึงข้อความกับภาพด้วย Dalle แต่งานที่เกี่ยวข้องกับการสร้างภาพอื่น ๆ อีกมากมายเช่นภาพที่ไม่ใส่ภาพการถ่ายโอนสไตล์หรือภาพความละเอียดสูง
- หากคุณต้องการสนับสนุนงานของฉัน คุณสามารถตรวจสอบเพื่อสนับสนุนที่เก็บนี้หรือสนับสนุนฉันใน Patreon
การสร้างกราฟฉากฉาก Panoptic หรือ PSG เป็นงานที่มีปัญหาใหม่ที่มีจุดมุ่งหมายเพื่อสร้างการแสดงกราฟที่ครอบคลุมมากขึ้นของภาพหรือฉากตามการแบ่งส่วน panoptic มากกว่ากล่องที่มีขอบเขต สามารถใช้เพื่อทำความเข้าใจรูปภาพและสร้างประโยคที่อธิบายว่าเกิดอะไรขึ้น นี่อาจเป็นงานที่ท้าทายที่สุดสำหรับ AI! เรียนรู้เพิ่มเติมด้านล่าง ...
โมเดลข้อความถึงภาพเช่น Dalle หรือการแพร่กระจายที่เสถียรนั้นเจ๋งจริง ๆ และช่วยให้เราสามารถสร้างภาพที่ยอดเยี่ยมด้วยอินพุตข้อความอย่างง่าย แต่มันจะเจ๋งกว่านี้ไหมที่จะให้ภาพของคุณและขอให้มันเปลี่ยนเป็นภาพวาด? ลองนึกภาพความสามารถในการส่งรูปภาพของวัตถุบุคคลหรือแม้แต่แมวของคุณและขอให้นางแบบเปลี่ยนเป็นรูปแบบอื่นเช่นเปลี่ยนตัวเองให้กลายเป็นไซบอร์กของสไตล์ศิลปะที่คุณต้องการหรือเพิ่มเข้าไปในฉากใหม่
โดยพื้นฐานแล้วมันจะเจ๋งแค่ไหนที่มี Dalle เวอร์ชันที่เราสามารถใช้กับ Photoshop รูปภาพของเราแทนที่จะมีคนรุ่นต่อไปแบบสุ่ม? การมี Dalle เป็นส่วนตัวในขณะที่ทำให้การควบคุมรุ่นง่ายขึ้นเป็น“ ภาพมีค่าหนึ่งพันคำ” มันจะเหมือนกับการมีแบบจำลอง Dalle ที่เป็นส่วนตัวและเสพติดเหมือนกับอัลกอริทึม Tiktok
นี่คือสิ่งที่นักวิจัยจากมหาวิทยาลัยเทลอาวีฟและ Nvidia ทำงาน พวกเขาพัฒนาวิธีการสำหรับการปรับแต่งโมเดลข้อความเป็นภาพเช่นการแพร่กระจายที่เสถียรฉันครอบคลุมเมื่อสัปดาห์ที่แล้วโดยมีภาพสองสามภาพเพื่อแสดงวัตถุหรือแนวคิดใด ๆ ผ่านคำที่คุณจะส่งไปตามภาพของคุณ การแปลงวัตถุของภาพอินพุตของคุณเป็นสิ่งที่คุณต้องการ!
เราได้เห็น AI สร้างข้อความจากนั้นสร้างภาพและล่าสุดยังสร้างวิดีโอสั้น ๆ แม้ว่าพวกเขาจะยังต้องการงาน ผลลัพธ์นั้นเหลือเชื่อเมื่อคุณคิดว่าไม่มีใครเกี่ยวข้องกับกระบวนการสร้างของชิ้นส่วนเหล่านี้และต้องได้รับการฝึกฝนเพียงครั้งเดียวเพื่อใช้โดยคนหลายพันคนเช่นการแพร่กระจายที่มั่นคงคือ ถึงกระนั้นโมเดลเหล่านี้เข้าใจจริง ๆ ว่าพวกเขากำลังทำอะไรอยู่? พวกเขารู้หรือไม่ว่าภาพหรือวิดีโอที่พวกเขาเพิ่งผลิตเป็นจริงคืออะไร? โมเดลดังกล่าวเข้าใจอะไรเมื่อเห็นภาพดังกล่าวหรือมีความซับซ้อนมากขึ้นวิดีโอ?
Make-A-Video รุ่นใหม่ของ Meta AI ออกมาและในประโยคเดียว: มันสร้างวิดีโอจากข้อความ มันไม่เพียง แต่สามารถสร้างวิดีโอได้ แต่ยังเป็นวิธีการที่ทันสมัยใหม่สร้างคุณภาพที่สูงขึ้นและวิดีโอที่เชื่อมโยงกันมากขึ้นกว่าเดิม!
คุณเคยฝันถึงเครื่องมือการถอดรหัสที่ดีที่จะเข้าใจสิ่งที่คุณพูดและจดบันทึกไว้อย่างถูกต้องหรือไม่? ไม่ชอบเครื่องมือแปลภาษา YouTube อัตโนมัติ ... ฉันหมายความว่าพวกเขาดี แต่ยังห่างไกลจากความสมบูรณ์แบบ เพียงแค่ลองใช้และเปิดคุณสมบัติสำหรับวิดีโอแล้วคุณจะเห็นสิ่งที่ฉันกำลังพูดถึง
โชคดีที่ Openai เพิ่งเปิดตัวและเปิดตัวโมเดล AI ที่ทรงพลังเพียงอย่างเดียวสำหรับสิ่งนั้น: Whisper
เข้าใจสิ่งต่าง ๆ ที่ฉันไม่สามารถเข้าใจได้ไม่ได้เป็นเจ้าของภาษาอังกฤษ (ฟังในวิดีโอ) และใช้งานได้กับการแปลภาษาด้วย!
เราเคยเห็นโมเดลสามารถใช้ประโยคและสร้างภาพได้ จากนั้นวิธีอื่น ๆ ในการจัดการภาพที่สร้างขึ้นโดยการเรียนรู้แนวคิดเฉพาะเช่นวัตถุหรือสไตล์เฉพาะ
เมื่อสัปดาห์ที่แล้ว Meta เผยแพร่โมเดล Make-A-Video ที่ฉันครอบคลุมซึ่งช่วยให้คุณสามารถสร้างวิดีโอสั้น ๆ จากประโยคข้อความ ผลลัพธ์ยังไม่สมบูรณ์แบบ แต่ความคืบหน้าที่เราทำในสนามตั้งแต่ปีที่แล้วเป็นเรื่องเหลือเชื่อ
สัปดาห์นี้เราก้าวไปอีกขั้น
นี่คือ Dreamfusion รูปแบบการวิจัยของ Google ใหม่ที่สามารถเข้าใจประโยคได้เพียงพอที่จะสร้างแบบจำลอง 3 มิติของมัน คุณสามารถเห็นสิ่งนี้เป็น dalle หรือการแพร่กระจายที่เสถียร แต่ใน 3D
หากคุณคิดว่ารูปแบบการสร้างภาพล่าสุดเช่น Dalle หรือการแพร่กระจายที่เสถียรนั้นยอดเยี่ยมคุณจะไม่เชื่อว่าอันนี้เหลือเชื่อแค่ไหน "อันนี้" เป็นจินตนาการ Imagic ใช้รูปแบบการแพร่กระจายที่สามารถนำข้อความและสร้างภาพออกมาและปรับโมเดลเพื่อแก้ไขภาพ คุณสามารถสร้างภาพแล้วสอนแบบจำลองเพื่อแก้ไขได้ทุกอย่างที่คุณต้องการ
Ediffi ซึ่งเป็นรุ่นล่าสุดของ Nvidia สร้างภาพที่ดูดีขึ้นและแม่นยำกว่าวิธีการก่อนหน้านี้ทั้งหมดเช่น Dalle 2 หรือการแพร่กระจายที่เสถียร Ediffi เข้าใจข้อความที่คุณส่งได้ดีขึ้นและปรับแต่งได้มากขึ้นเพิ่มคุณสมบัติที่เราเห็นในกระดาษก่อนหน้าจาก Nvidia: เครื่องมือจิตรกร
- หากคุณต้องการสนับสนุนงานของฉัน คุณสามารถตรวจสอบเพื่อสนับสนุนที่เก็บนี้หรือสนับสนุนฉันใน Patreon
สร้างเฟรมใหม่ที่ไม่มีที่สิ้นสุดราวกับว่าคุณจะบินเข้าไปในภาพของคุณ!
Galactica เป็นแบบจำลองภาษาขนาดใหญ่ที่มีขนาดเทียบได้กับ GPT-3 แต่มีความเชี่ยวชาญด้านความรู้ทางวิทยาศาสตร์ แบบจำลองสามารถเขียน Whitepapers, บทวิจารณ์, หน้า Wikipedia และรหัส มันรู้วิธีอ้างอิงและวิธีการเขียนสมการ มันเป็นเรื่องใหญ่สำหรับ AI และวิทยาศาสตร์
จากวิดีโอเดียวพวกเขาสามารถสังเคราะห์คนที่พูดถึงคำหรือประโยคใด ๆ ในเวลาจริงด้วยคุณภาพที่ดีขึ้น คุณสามารถเคลื่อนไหวหัวพูดคุยหลังจากแทร็กเสียงใด ๆ แบบเรียลไทม์
CHATGPT ได้เข้ายึดครอง Twitter และอินเทอร์เน็ตทั้งหมดด้วยพลังและศักยภาพของมส์ที่มีให้ เราทุกคนรู้ว่าความสามารถในการสร้าง memes เป็นวิธีที่ดีที่สุดในการพิชิตอินเทอร์เน็ตและมันก็ใช้ได้
เนื่องจากคุณเคยเห็นตัวอย่างมากมายคุณอาจรู้อยู่แล้วว่า CHATGPT เป็น AI ที่เพิ่งเปิดตัวต่อสาธารณชนโดย Openai ซึ่งคุณสามารถแชทด้วย มันถูกเรียกว่า chatbot ซึ่งหมายความว่าคุณสามารถโต้ตอบกับการสนทนาได้โดยเลียนแบบการสนทนาของมนุษย์แบบตัวต่อตัว
สิ่งที่คุณอาจไม่รู้คือมันคืออะไรและมันทำงานอย่างไร ... ดูวิดีโอหรืออ่านบทความหรือโพสต์บล็อกด้านล่างเพื่อเรียนรู้เพิ่มเติม!
ไม่ว่าจะเป็นการสนุกในตัวกรอง Snapchat สำหรับภาพยนตร์หรือแม้แต่ลบริ้วรอยสองสามครั้งเราทุกคนมียูทิลิตี้ในใจเพื่อให้สามารถเปลี่ยนอายุของเราในภาพได้
โดยปกติจะทำโดยศิลปินที่มีทักษะโดยใช้ Photoshop หรือเครื่องมือที่คล้ายกันเพื่อแก้ไขรูปภาพของคุณ ที่แย่ที่สุดในวิดีโอพวกเขาต้องทำการแก้ไขด้วยตนเองแบบนี้สำหรับทุกเฟรม! แค่จินตนาการถึงปริมาณงานที่จำเป็นสำหรับสิ่งนั้น นี่คือวิธีแก้ปัญหาและปัญหาใหม่สำหรับสถานการณ์นี้ ... ?
หากคุณต้องการอ่านเอกสารเพิ่มเติมและมีมุมมองที่กว้างขึ้นนี่เป็นอีกหนึ่งพื้นที่เก็บข้อมูลที่ยอดเยี่ยมสำหรับคุณที่ครอบคลุม 2021: 2021: หนึ่งปีที่เต็มไปด้วยเอกสาร AI ที่น่าทึ่ง- รีวิวและรู้สึกอิสระที่จะสมัครรับจดหมายข่าวรายสัปดาห์ของฉัน -วันที่มีสิ่งพิมพ์ใหม่ใน AI ในปี 2022!
แท็กฉันบน Twitter @whats_ai หรือ LinkedIn @louis (AI คืออะไร) Bouchard ถ้าคุณแชร์รายการ!
[1] Suvorov, R. , Logacheva, E. , Mashikhin, A. , Remizova, A. , Ashukha, A. , Silvestrov, A. , Kong, N. , Goka, H. , Park, K. และ Lempitsky, V. , 2022. ความละเอียดของหน้ากากขนาดใหญ่ในการวาดภาพด้วยการโน้มน้าวใจฟูริเยร์ ในการประชุม IEEE/CVF Winter Conference เกี่ยวกับแอปพลิเคชันของคอมพิวเตอร์วิสัยทัศน์ (หน้า 2149–2159), https://arxiv.org/pdf/2109.07161.pdf
[2] Tzaban, R. , Mokady, R. , Gal, R. , Bermano, Ah และ Cohen-Or, D. , 2022. Stitch ในเวลา: การแก้ไขใบหน้าของ Gan-based ของวิดีโอจริง https://arxiv.org/abs/2201.08361
[3] Kuang, Z. , Olszewski, K. , Chai, M. , Huang, Z. , Achlioptas, P. และ Tulyakov, S. , 2022. Neroic: การแสดงผลของวัตถุจากคอลเล็กชั่นภาพออนไลน์ https://arxiv.org/pdf/2201.02533.pdf
[4] Borsos, Z. , Sharifi, M. และ Tagliasacchi, M. , 2022. SpeechPainter: คำพูดที่ใช้ข้อความคำพูด https://arxiv.org/pdf/2202.07273.pdf
[5] Wang, X., Li, Y., Zhang, H. and Shan, Y., 2021. Towards real-world blind face restoration with generative facial prior. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 9168–9178), https://arxiv.org/pdf/2101.04061.pdf
[6] Piergiovanni, AJ, Casser, V., Ryoo, MS and Angelova, A., 2021. 4d-net for learned multi-modal alignment. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 15435–15445), https://openaccess.thecvf.com/content/ICCV2021/papers/Piergiovanni_4D-Net_for_Learned_Multi-Modal_Alignment_ICCV_2021_paper.pdf.
[7] Thomas Muller, Alex Evans, Christoph Schied and Alexander Keller, 2022, "Instant Neural Graphics Primitives with a Multiresolution Hash Encoding", https://nvlabs.github.io/instant-ngp/assets/mueller2022instant.pdf
[8] A. Ramesh et al., 2022, "Hierarchical Text-Conditional Image Generation with CLIP Latents", https://cdn.openai.com/papers/dall-e-2.pdf
[9] Nitzan, Y., Aberman, K., He, Q., Liba, O., Yarom, M., Gandelsman, Y., Mosseri, I., Pritch, Y. and Cohen-Or, D., 2022. MyStyle: A Personalized Generative Prior. arXiv preprint arXiv:2203.17272.
[10] Zhang, Susan et al. “OPT: Open Pre-trained Transformer Language Models.” https://arxiv.org/abs/2205.01068
[11] Epstein, D., Park, T., Zhang, R., Shechtman, E. and Efros, AA, 2022. BlobGAN: Spatially Disentangled Scene Representations. arXiv preprint arXiv:2205.02837.
[12] Reed S. et al., 2022, Deemind: Gato - A generalist agent, https://storage.googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf
[13] Saharia et al., 2022, Google Brain, Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding, https://gweb-research-imagen.appspot.com/paper.pdf
[14] Dayma, et al., 2021, DALL·E Mini, doi:10.5281/zenodo.5146400
[15] NLLB Team et al., 2022, No Language Left Behind: Scaling Human-Centered Machine Translation
[16] Sheinin, Mark and Chan, Dorian and O'Toole, Matthew and Narasimhan, Srinivasa G., 2022, Dual-Shutter Optical Vibration Sensing, Proc. IEEE CVPR.
[17] Gafni, O., Polyak, A., Ashual, O., Sheynin, S., Parikh, D. and Taigman, Y., 2022. Make-a-scene: Scene-based text-to-image generation with human priors. https://arxiv.org/pdf/2203.13131.pdf
[18] Yang, G., Vo, M., Neverova, N., Ramanan, D., Vedaldi, A. and Joo, H., 2022. Banmo: Building animatable 3d neural models from many casual videos. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 2863-2873).
[19] Rombach, R., Blattmann, A., Lorenz, D., Esser, P. and Ommer, B., 2022. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 10684–10695), https://arxiv.org/pdf/2112.10752.pdf
[20] Yang, J., Ang, YZ, Guo, Z., Zhou, K., Zhang, W. and Liu, Z., 2022. Panoptic Scene Graph Generation. arXiv preprint arXiv:2207.11247.
[21] Gal, R., Alaluf, Y., Atzmon, Y., Patashnik, O., Bermano, AH, Chechik, G. and Cohen-Or, D., 2022. An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion.
[22] Ni, B., Peng, H., Chen, M., Zhang, S., Meng, G., Fu, J., Xiang, S. and Ling, H., 2022. Expanding Language-Image Pretrained Models for General Video Recognition. arXiv preprint arXiv:2208.02816.
[23] Singer et al. (Meta AI), 2022, “MAKE-A-VIDEO: TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA”, https://makeavideo.studio/Make-A-Video.pdf
[24] Radford, A., Kim, JW, Xu, T., Brockman, G., McLeavey, C. and Sutskever, I., Robust Speech Recognition via Large-Scale Weak Supervision.
[25] Poole, B., Jain, A., Barron, JT and Mildenhall, B., 2022. DreamFusion: Text-to-3D using 2D Diffusion. arXiv preprint arXiv:2209.14988.
[26] Kawar, B., Zada, S., Lang, O., Tov, O., Chang, H., Dekel, T., Mosseri, I. and Irani, M., 2022. Imagic: Text-Based Real Image Editing with Diffusion Models. arXiv preprint arXiv:2210.09276.
[27] Balaji, Y. et al., 2022, eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers, https://arxiv.org/abs/2211.01324
[28] Li, Z., Wang, Q., Snavely, N. and Kanazawa, A., 2022. InfiniteNature-Zero: Learning Perpetual View Generation of Natural Scenes from Single Images. In European Conference on Computer Vision (pp. 515–534). Springer, Cham, https://arxiv.org/abs/2207.11148
[29] Taylor et al., 2022: Galactica: A Large Language Model for Science, https://galactica.org/
[30] Tang, J., Wang, K., Zhou, H., Chen, X., He, D., Hu, T., Liu, J., Zeng, G. and Wang, J., 2022. Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial Decomposition. arXiv preprint arXiv:2211.12368.
[31] OpenAI, 2022: ChatGPT: Optimizing Language Models for Dialogue, https://openai.com/blog/chatgpt/
[32] Loss et al., DisneyResearch, 2022: FRAN, https://studios.disneyresearch.com/2022/11/30/production-ready-face-re-aging-for-visual-effects/