Sementara dunia masih pulih, penelitian belum memperlambat kecepatannya yang hingar -bingar, terutama di bidang kecerdasan buatan. Lebih banyak, banyak aspek penting disorot tahun ini, seperti aspek etika, bias penting, tata kelola, transparansi dan banyak lagi. Kecerdasan buatan dan pemahaman kita tentang otak manusia dan hubungannya dengan AI terus berkembang, menunjukkan aplikasi yang menjanjikan meningkatkan kualitas hidup kita dalam waktu dekat. Namun, kami harus berhati -hati dengan teknologi mana yang kami pilih untuk diterapkan.
"Sains tidak bisa memberi tahu kita apa yang seharusnya kita lakukan, hanya apa yang bisa kita lakukan."
- Jean-Paul Sartre, Being and Nothingness
Berikut daftar terobosan terbaru dalam AI dan Ilmu Data berdasarkan tanggal rilis dengan penjelasan video yang jelas, tautan ke artikel yang lebih mendalam, dan kode (jika berlaku). Nikmati bacaannya!
Referensi lengkap untuk setiap kertas tercantum di akhir repositori ini. Bintang repositori ini untuk tetap up to date dan nantikan tahun depan! ️
Pemelihara: LouisfB01, juga aktif di YouTube dan sebagai podcaster jika Anda ingin melihat/mendengar lebih banyak tentang AI!
Berlangganan buletin saya - pembaruan terbaru di AI dijelaskan setiap minggu.
Jangan ragu untuk mengirimi saya kertas menarik yang mungkin saya lewatkan untuk ditambahkan ke repositori ini.
Tag saya di twitter @whats_ai atau linkedin @louis (apa ai) bouchard jika Anda berbagi daftar! Dan ajak ngobrol dengan kami di komunitas belajar kami bersama!
? Jika Anda ingin mendukung pekerjaan saya , Anda dapat memeriksa untuk mensponsori repositori ini atau mendukung saya di Patreon.
Anda pasti pernah mengalami situasi ini sekali: Anda mengambil foto yang bagus dengan teman Anda, dan seseorang memotret di belakang Anda, merusak posting Instagram masa depan Anda. Yah, itu tidak lagi menjadi masalah. Entah itu adalah orang atau tempat sampah yang dapat Anda lupa hapus sebelum mengambil selfie Anda yang merusak fotomu. AI ini hanya akan secara otomatis menghapus objek atau orang yang tidak diinginkan dalam gambar dan menyimpan posting Anda. Ini seperti desainer photoshop profesional di saku Anda, dan dengan klik sederhana!
Tugas untuk menghapus bagian dari suatu gambar dan menggantinya dengan apa yang muncul di belakang telah ditangani oleh banyak peneliti AI untuk waktu yang lama. Ini disebut gambar inpainting, dan ini sangat menantang ...
Anda pasti melihat film seperti Captain Marvel atau Gemini Man di mana Samuel L Jackson dan Will Smith tampak terlihat seperti mereka jauh lebih muda. Ini membutuhkan ratusan jika tidak ribuan jam kerja dari para profesional secara manual mengedit adegan yang dia muncul. Sebaliknya, Anda bisa menggunakan AI sederhana dan melakukannya dalam beberapa menit. Memang, banyak teknik memungkinkan Anda untuk menambahkan senyum, membuat Anda terlihat lebih muda atau lebih tua, semuanya secara otomatis menggunakan algoritma berbasis AI. Ini disebut manipulasi wajah berbasis AI dalam video dan inilah canggih saat ini pada tahun 2022!
Rendering saraf. Render saraf adalah kemampuan untuk menghasilkan model fotorealistik di ruang seperti ini, dari gambar objek, orang, atau adegan yang menarik. Dalam hal ini, Anda akan memiliki beberapa gambar patung ini dan meminta mesin untuk memahami seperti apa objek dalam gambar -gambar ini di luar angkasa. Anda pada dasarnya meminta mesin untuk memahami fisika dan bentuk dari gambar. Ini cukup mudah bagi kita karena kita hanya tahu dunia nyata dan kedalaman, tetapi ini adalah tantangan lain untuk mesin yang hanya melihat piksel. Sangat bagus bahwa model yang dihasilkan terlihat akurat dengan bentuk realistis, tetapi bagaimana dengan bagaimana hal itu menyatu dalam adegan baru? Dan bagaimana jika kondisi pencahayaan bervariasi dalam gambar yang diambil dan model yang dihasilkan terlihat berbeda tergantung pada sudut yang Anda lihat? Ini akan secara otomatis tampak aneh dan tidak realistis bagi kita. Ini adalah tantangan Snapchat dan University of Southern California menyerang dalam penelitian baru ini.
Kami telah melihat inpaining gambar, yang bertujuan untuk menghapus objek yang tidak diinginkan dari gambar. Teknik berbasis pembelajaran mesin tidak hanya menghapus objek, tetapi mereka juga memahami gambar dan mengisi bagian gambar yang hilang dengan seperti apa latar belakangnya. Kemajuan terbaru luar biasa, sama seperti hasilnya, dan tugas inpainting ini bisa sangat berguna untuk banyak aplikasi seperti iklan atau meningkatkan posting Instagram masa depan Anda. Kami juga membahas tugas yang bahkan lebih menantang: inpainting video, di mana proses yang sama diterapkan pada video untuk menghapus objek atau orang.
Tantangan dengan video hadir dengan tetap konsisten dari bingkai ke bingkai tanpa artefak kereta. Tapi sekarang, apa yang terjadi jika kita menghapus seseorang dengan benar dari film dan suaranya masih ada, tidak berubah? Nah, kita mungkin mendengar hantu dan merusak semua pekerjaan kita.
Di sinilah tugas yang tidak pernah saya liput di saluran saya masuk: ucapan masuk. Anda mendengarnya dengan benar, para peneliti dari Google baru saja menerbitkan makalah yang bertujuan untuk memasukkan pidato, dan, seperti yang akan kita lihat, hasilnya cukup mengesankan. Oke, kami mungkin lebih suka mendengar daripada melihat hasilnya, tetapi Anda mengerti maksudnya. Ini dapat memperbaiki tata bahasa Anda, pengucapan atau bahkan menghilangkan kebisingan latar belakang. Semua hal yang pasti harus saya kerjakan, atau ... cukup gunakan model baru mereka ... dengarkan contoh -contoh dalam video saya!
Apakah Anda juga memiliki foto-foto lama diri Anda atau yang dekat yang tidak menua dengan baik atau bahwa Anda, atau orang tua Anda, mengambil sebelum kami dapat menghasilkan gambar berkualitas tinggi? Saya lakukan, dan saya merasa kenangan itu rusak selamanya. Wah, apakah saya salah!
Model AI yang baru dan sepenuhnya gratis ini dapat memperbaiki sebagian besar gambar lama Anda dalam sepersekian detik. Ini bekerja dengan baik bahkan dengan input yang sangat rendah atau berkualitas tinggi, yang biasanya merupakan tantangan yang cukup.
Makalah minggu ini dipanggil menuju pemulihan wajah buta dunia nyata dengan facial generatif sebelumnya menangani tugas restorasi foto dengan hasil yang luar biasa. Yang lebih keren adalah Anda dapat mencobanya sendiri dan dengan cara yang Anda sukai. Mereka telah bersumber dari kode mereka, membuat demo dan aplikasi online untuk Anda coba sekarang. Jika hasil yang Anda lihat di atas tidak cukup meyakinkan, cukup tonton videonya dan beri tahu saya apa yang Anda pikirkan di komentar, saya tahu itu akan membuat Anda tersedot!
Bagaimana kendaraan otonom melihat?
Anda mungkin pernah mendengar tentang sensor lidar atau kamera aneh lainnya yang mereka gunakan. Tetapi bagaimana mereka bekerja, bagaimana mereka bisa melihat dunia, dan apa yang mereka lihat dengan tepat dibandingkan dengan kita? Memahami bagaimana mereka bekerja sangat penting jika kita ingin menempatkan mereka di jalan, terutama jika Anda bekerja di pemerintahan atau membangun peraturan berikutnya. Tetapi juga sebagai klien layanan ini.
Kami sebelumnya membahas bagaimana Tesla Autopilot melihat dan bekerja, tetapi mereka berbeda dari kendaraan otonom konvensional. Tesla hanya menggunakan kamera untuk memahami dunia, sementara kebanyakan dari mereka, seperti Waymo, menggunakan kamera biasa dan sensor lidar 3D. Sensor Lidar ini cukup mudah dipahami: mereka tidak akan menghasilkan gambar seperti kamera biasa tetapi awan titik 3D. Kamera Lidar mengukur jarak antara objek, menghitung waktu perjalanan laser pulsa yang mereka proyeksikan ke objek.
Namun, bagaimana kita dapat secara efisien menggabungkan informasi ini dan membuat kendaraan memahaminya? Dan apa yang akhirnya dilihat kendaraan? Hanya poin di mana -mana? Apakah cukup untuk mengemudi di jalan kita? Kami akan melihat ini dengan makalah penelitian baru oleh Waymo dan Google Research ...
Seolah -olah mengambil gambar bukanlah kecakapan teknologi yang cukup menantang, kita sekarang melakukan yang sebaliknya: memodelkan dunia dari gambar. Saya telah membahas model berbasis AI yang luar biasa yang dapat mengambil gambar dan mengubahnya menjadi adegan berkualitas tinggi. Tugas menantang yang terdiri dari mengambil beberapa gambar di dunia gambar 2 dimensi untuk menciptakan bagaimana objek atau orang akan terlihat di dunia nyata.
Ambil beberapa gambar dan langsung memiliki model yang realistis untuk dimasukkan ke dalam produk Anda. Seberapa keren itu?!
Hasilnya telah meningkat secara dramatis pada model pertama yang saya bahas pada tahun 2020, yang disebut NERF. Dan peningkatan ini bukan hanya tentang kualitas hasil. Nvidia membuatnya lebih baik.
Tidak hanya kualitasnya sebanding, jika tidak lebih baik, tetapi lebih dari 1.000 kali lebih cepat dengan penelitian kurang dari dua tahun.
Tahun lalu saya berbagi Dall · E, model luar biasa oleh OpenAi yang mampu menghasilkan gambar dari input teks dengan hasil yang luar biasa. Sekarang saatnya untuk kakaknya, Dall · E 2. Dan Anda tidak akan mempercayai kemajuan dalam satu tahun! Dall · E 2 tidak hanya lebih baik dalam menghasilkan gambar fotorealistik dari teks. Hasilnya empat kali resolusi!
Seolah -olah itu belum cukup mengesankan, model terbaru belajar keterampilan baru; inpainting gambar.
Dall · E dapat menghasilkan gambar dari input teks.
Dall · E 2 dapat melakukannya dengan lebih baik, tetapi tidak berhenti di situ. Itu juga dapat mengedit gambar -gambar itu dan membuatnya terlihat lebih baik! Atau cukup tambahkan fitur yang Anda inginkan seperti flamingo di latar belakang.
Kedengarannya menarik? Pelajari lebih lanjut di video atau baca lebih lanjut di bawah ini!
Model baru oleh Google Research dan Tel-Aviv University luar biasa. Anda dapat melihatnya sebagai Deepfake yang sangat, sangat kuat yang dapat melakukan apa saja.
Ambil seratus gambar dari siapa pun dan Anda memiliki kepribadian yang dikodekan untuk memperbaiki, mengedit atau membuat gambar realistis yang Anda inginkan.
Ini luar biasa dan menakutkan jika Anda bertanya kepada saya, terutama ketika Anda melihat hasilnya. Tonton video untuk melihat lebih banyak hasil dan pahami cara kerja model!
Lihat Podcast AI What's AI untuk lebih banyak konten AI dalam bentuk wawancara dengan para ahli di lapangan! Seorang ahli AI yang diundang dan saya akan membahas topik-topik tertentu, sub-bidang, dan peran yang terkait dengan AI untuk mengajar dan berbagi pengetahuan dari orang-orang yang bekerja keras untuk mengumpulkannya.
Kita semua pernah mendengar tentang GPT-3 dan memiliki sedikit gagasan yang jelas tentang kemampuannya. Anda pasti melihat beberapa aplikasi yang lahir secara ketat karena model ini, beberapa di antaranya saya liput dalam video sebelumnya tentang model. GPT-3 adalah model yang dikembangkan oleh OpenAI yang dapat Anda akses melalui API berbayar tetapi tidak memiliki akses ke model itu sendiri.
Apa yang membuat GPT-3 begitu kuat adalah arsitektur dan ukurannya. Ini memiliki 175 miliar parameter. Dua kali jumlah neuron yang kita miliki di otak kita! Jaringan besar ini cukup terlatih di seluruh internet untuk memahami bagaimana kita menulis, bertukar, dan memahami teks. Minggu ini, Meta telah mengambil langkah besar ke depan bagi masyarakat. Mereka baru saja merilis model yang sama kuatnya, jika tidak lebih dan telah sepenuhnya bersumber terbuka.
Blobgan memungkinkan manipulasi gambar yang tidak nyata, dibuat dengan sangat mudah mengendalikan gumpalan sederhana. Semua gumpalan kecil ini mewakili suatu objek, dan Anda dapat memindahkannya atau membuatnya lebih besar, lebih kecil, atau bahkan menghapusnya, dan itu akan memiliki efek yang sama pada objek yang diwakilinya dalam gambar. Ini sangat keren!
Seperti yang penulis bagikan dalam hasilnya, Anda bahkan dapat membuat gambar baru dengan menduplikasi gumpalan, membuat gambar yang tidak terlihat dalam dataset seperti ruangan dengan dua kipas langit -langit! Koreksi saya jika saya salah, tetapi saya percaya ini adalah salah satu, jika bukan yang pertama, kertas untuk membuat modifikasi gambar sesederhana gumpalan bergerak di sekitar dan memungkinkan untuk pengeditan yang tidak terlihat dalam dataset pelatihan.
Dan Anda benar -benar dapat bermain dengan yang satu ini dibandingkan dengan beberapa perusahaan yang kita semua kenal! Mereka membagikan kode mereka secara publik dan demo Colab yang dapat Anda coba segera. Yang lebih menarik adalah cara kerja Blobgan. Pelajari lebih lanjut di video!
Gato dari DeepMind baru saja diterbitkan! Ini adalah transformator tunggal yang dapat memainkan game atari, gambar caption, mengobrol dengan orang -orang, mengendalikan lengan robot yang nyata, dan banyak lagi! Memang, itu dilatih sekali dan menggunakan bobot yang sama untuk mencapai semua tugas itu. Dan sesuai Deepmind, ini bukan hanya transformator tetapi juga agen. Inilah yang terjadi ketika Anda mencampur transformator dengan kemajuan pada agen pembelajaran penguatan multi-tugas.
Gato adalah agen multi-modal. Berarti dapat membuat teks untuk gambar atau menjawab pertanyaan sebagai chatbot. Anda akan mengatakan bahwa GPT-3 sudah dapat melakukan itu, tetapi Gato dapat berbuat lebih banyak ... multi-modalitas berasal dari fakta bahwa Gato juga dapat memainkan permainan atari di tingkat manusia atau bahkan melakukan tugas-tugas dunia nyata seperti mengendalikan lengan robotik untuk Pindahkan objek dengan tepat. Itu memahami kata -kata, gambar, dan bahkan fisika ...
Jika Anda berpikir Dall-E 2 memiliki hasil yang bagus, tunggu sampai Anda melihat apa yang dapat dilakukan oleh model baru dari Google Brain ini.
Dalle-E luar biasa tetapi sering kali tidak memiliki realisme, dan inilah yang diserang tim dengan model baru yang disebut Imagen.
Mereka berbagi banyak hasil di halaman proyek mereka serta tolok ukur, yang mereka perkenalkan untuk membandingkan model teks-ke-gambar, di mana mereka jelas mengungguli Dall-E 2, dan pendekatan pembuatan gambar sebelumnya. Pelajari lebih lanjut di video ...
Dalle Mini luar biasa - dan Anda bisa menggunakannya!
Saya yakin Anda telah melihat gambar seperti yang ada di feed Twitter Anda dalam beberapa hari terakhir. Jika Anda bertanya -tanya apa itu, itu adalah gambar yang dihasilkan oleh AI yang disebut Dall · e mini. Jika Anda belum pernah melihatnya, Anda perlu menonton video ini karena Anda kehilangan. Jika Anda bertanya -tanya bagaimana ini mungkin, yah, Anda berada di video yang sempurna dan akan mengetahui jawabannya dalam waktu kurang dari lima menit.
Dalle Mini adalah AI open-source gratis yang menghasilkan gambar luar biasa dari input teks.
Model terbaru Meta AI, yang disebut "No Language Left Behind" melakukan persis seperti itu: diterjemahkan di 200 bahasa yang berbeda dengan kualitas canggih. Satu model dapat menangani 200 bahasa. Betapa luar biasa itu?
Kami merasa sulit untuk memiliki hasil yang bagus secara ketat dalam bahasa Inggris sementara Meta menangani 200 bahasa yang berbeda dengan model yang sama, dan beberapa yang paling rumit dan kurang terwakili yang bahkan Google menerjemahkan perjuangan dengan ...
Mereka merekonstruksi suara menggunakan kamera dan sinar laser pada permukaan yang bergetar, memungkinkan mereka untuk mengisolasi instrumen musik, fokus pada speaker tertentu, menghapus suara ambien, dan banyak aplikasi yang lebih menakjubkan.
Make-a-scene bukan "hanya dalle lain". Tujuan dari model baru ini bukan untuk memungkinkan pengguna untuk menghasilkan gambar acak mengikuti prompt teks seperti yang dilakukan Dalle - yang benar -benar keren - tetapi membatasi kontrol pengguna pada generasi.
Sebagai gantinya, Meta ingin mendorong ekspresi kreatif ke depan, menggabungkan tren teks-ke-gambar ini dengan model sketsa-ke-gambar sebelumnya, yang mengarah ke "make-a-scene": perpaduan yang fantastis antara teks dan pembuatan gambar yang dikondisikan sketsa.
Buat model 3D yang dapat dideformasi dari gambar dengan Banmo!
Apa kesamaan semua model gambar super kuat seperti Dalle, Imagen, atau Midjourney? Selain biaya komputasi yang tinggi, waktu pelatihan yang sangat besar, dan hype bersama, mereka semua didasarkan pada mekanisme yang sama: difusi. Model difusi baru-baru ini mencapai hasil canggih untuk sebagian besar tugas gambar termasuk teks-ke-gambar dengan dalle tetapi banyak tugas terkait pembuatan gambar lainnya juga, seperti inpaining gambar, transfer gaya atau resolusi super gambar.
? Jika Anda ingin mendukung pekerjaan saya , Anda dapat memeriksa untuk mensponsori repositori ini atau mendukung saya di Patreon.
Panoptic Scene Graph Generation, atau PSG, adalah tugas masalah baru yang bertujuan untuk menghasilkan representasi grafik yang lebih komprehensif dari suatu gambar atau adegan berdasarkan segmentasi panoptik daripada kotak pembatas. Ini dapat digunakan untuk memahami gambar dan menghasilkan kalimat yang menggambarkan apa yang terjadi. Ini mungkin tugas yang paling menantang untuk AI! Pelajari lebih lanjut di bawah ini ...
Model teks-ke-gambar seperti dalle atau difusi stabil sangat keren dan memungkinkan kami untuk menghasilkan gambar yang fantastis dengan input teks sederhana. Tetapi apakah akan lebih keren untuk memberi mereka foto Anda dan memintanya untuk mengubahnya menjadi lukisan? Bayangkan bisa mengirim gambar objek, orang, atau bahkan kucing Anda, dan meminta model untuk mengubahnya menjadi gaya lain seperti mengubah diri Anda menjadi cyborg menjadi gaya artistik pilihan Anda atau menambahkannya ke adegan baru.
Pada dasarnya, betapa kerennya memiliki versi Dalle yang dapat kita gunakan untuk Photoshop gambar kita alih -alih memiliki generasi acak? Memiliki dalle yang dipersonalisasi, sambil membuatnya jauh lebih sederhana untuk mengendalikan generasi sebagai "gambar bernilai ribuan kata". Ini akan seperti memiliki model Dalle yang sama personalisasi dan adiktifnya dengan algoritma Tiktok.
Nah, inilah yang dikerjakan oleh para peneliti dari Tel Aviv University dan Nvidia. Mereka mengembangkan pendekatan untuk mengkondisikan model teks-ke-gambar, seperti difusi stabil yang saya bahas minggu lalu, dengan beberapa gambar untuk mewakili objek atau konsep apa pun melalui kata-kata yang akan Anda kirim sepanjang gambar Anda. Mengubah objek gambar input Anda menjadi apa pun yang Anda inginkan!
Kami telah melihat AI menghasilkan teks, kemudian menghasilkan gambar dan yang terbaru bahkan menghasilkan video pendek, meskipun mereka masih membutuhkan pekerjaan. Hasilnya luar biasa ketika Anda berpikir bahwa tidak ada yang benar -benar terlibat dalam proses penciptaan karya -karya ini dan hanya harus dilatih sekali untuk digunakan oleh ribuan orang seperti difusi stabil. Tetap saja, apakah model -model ini benar -benar memahami apa yang mereka lakukan? Apakah mereka tahu gambar atau video apa yang baru saja mereka hasilkan? Apa yang dipahami oleh model seperti itu ketika melihat gambar seperti itu atau, bahkan lebih kompleks, video?
Model baru Meta AI Make-A-Video keluar dan dalam satu kalimat: ia menghasilkan video dari teks. Ini tidak hanya dapat menghasilkan video, tetapi juga metode canggih yang baru, menghasilkan kualitas yang lebih tinggi dan lebih banyak video yang lebih koheren daripada sebelumnya!
Pernahkah Anda memimpikan alat transkripsi yang baik yang secara akurat akan memahami apa yang Anda katakan dan tuliskan? Tidak seperti alat terjemahan YouTube otomatis ... Maksud saya, mereka bagus tapi jauh dari sempurna. Coba saja dan nyalakan fitur untuk video, dan Anda akan melihat apa yang saya bicarakan.
Untungnya, Openai baru saja merilis dan bersumber dari model AI yang cukup kuat hanya untuk itu: Whisper.
Ini memahami hal -hal yang bahkan tidak dapat saya pahami, bukan menjadi penutur asli bahasa Inggris (dengarkan dalam video) dan juga berfungsi untuk terjemahan bahasa!
Kami telah melihat model dapat mengambil kalimat dan menghasilkan gambar. Kemudian, pendekatan lain untuk memanipulasi gambar yang dihasilkan dengan mempelajari konsep -konsep spesifik seperti objek atau gaya tertentu.
Minggu lalu Meta menerbitkan model Make-A-Video yang saya bahas, yang memungkinkan Anda untuk menghasilkan video pendek juga dari kalimat teks. Hasilnya belum sempurna, tetapi kemajuan yang kami buat di lapangan sejak tahun lalu luar biasa.
Minggu ini kami membuat langkah maju lagi.
Inilah DreamFusion, model penelitian Google baru yang dapat memahami kalimat yang cukup untuk menghasilkan model 3D. Anda dapat melihat ini sebagai difusi dalle atau stabil tetapi dalam 3D.
Jika Anda berpikir model pembuatan gambar terbaru seperti Dalle atau difusi stabil itu keren, Anda tidak akan percaya betapa luar biasa yang satu ini. "Yang ini" adalah imajik. Imagic mengambil model berbasis difusi yang dapat mengambil teks dan menghasilkan gambar darinya dan mengadaptasi model untuk mengedit gambar. Anda dapat menghasilkan gambar dan kemudian mengajarkan model untuk mengeditnya dengan cara apa pun yang Anda inginkan.
Ediffi, model terbaru NVIDIA, menghasilkan gambar yang lebih baik dan lebih akurat daripada semua pendekatan sebelumnya seperti Dalle 2 atau difusi stabil. Ediffi lebih memahami teks yang Anda kirim dan lebih dapat disesuaikan, menambahkan fitur yang kami lihat di makalah sebelumnya dari NVIDIA: The Painter Tool.
? Jika Anda ingin mendukung pekerjaan saya , Anda dapat memeriksa untuk mensponsori repositori ini atau mendukung saya di Patreon.
Hasilkan bingkai baru yang tak terbatas seolah -olah Anda akan terbang ke gambar Anda!
Galactica adalah model bahasa besar dengan ukuran yang sebanding dengan GPT-3, tetapi berspesialisasi pada pengetahuan ilmiah. Model ini dapat menulis whitepaper, ulasan, halaman wikipedia, dan kode. Ia tahu cara mengutip dan bagaimana menulis persamaan. Ini semacam masalah besar bagi AI dan sains.
Dari satu video, mereka dapat mensintesis orang yang berbicara dengan hampir semua kata atau kalimat secara real time dengan kualitas yang lebih baik. Anda dapat menghidupkan kepala yang berbicara mengikuti trek audio apa pun secara real-time.
ChatGPT telah mengambil alih Twitter dan hampir seluruh internet, berkat kekuatannya dan potensi meme yang disediakannya. Kita semua tahu bagaimana bisa menghasilkan meme adalah cara terbaik untuk menaklukkan internet, dan karenanya berhasil.
Karena Anda telah melihat banyak contoh, Anda mungkin sudah tahu bahwa chatgpt adalah AI yang baru -baru ini dirilis ke publik oleh Openai, yang dapat Anda ajak ngobrol. Ini juga disebut chatbot, yang berarti Anda dapat berinteraksi dengannya secara percakapan, meniru diskusi manusia satu-satu.
Yang mungkin tidak Anda ketahui adalah apa itu dan bagaimana cara kerjanya ... tonton video atau baca artikel atau posting blog di bawah ini untuk mempelajari lebih lanjut!
Apakah itu untuk bersenang -senang di filter Snapchat, untuk film, atau bahkan untuk menghapus beberapa kerutan, kita semua memiliki utilitas dalam pikiran karena dapat mengubah usia kita dalam sebuah gambar.
Ini biasanya dilakukan oleh seniman terampil menggunakan Photoshop atau alat serupa untuk mengedit gambar Anda. Terburuk, dalam sebuah video, mereka harus melakukan pengeditan manual semacam ini untuk setiap bingkai! Bayangkan saja jumlah pekerjaan yang dibutuhkan untuk itu. Nah, inilah solusi dan masalah baru untuk situasi ini ...?
Jika Anda ingin membaca lebih banyak makalah dan memiliki tampilan yang lebih luas, berikut adalah repositori hebat lainnya untuk Anda yang meliput 2021: 2021: setahun penuh dengan makalah AI yang luar biasa- ulasan dan merasa bebas untuk berlangganan buletin mingguan saya dan tetap mutakhir ke atas -Data dengan publikasi baru di AI untuk 2022!
Tag saya di twitter @whats_ai atau linkedin @louis (apa ai) bouchard jika Anda berbagi daftar!
[1] Suvorov, R., Logacheva, E., Mashikhin, A., Remizova, A., Ashukha, A., Silvestrov, A., Kong, N., Goka, H., Park, K. dan Lempitsky, V., 2022. Topeng besar resolusi-robust inpainting dengan konvolusi Fourier. Dalam Prosiding Konferensi Musim Dingin IEEE/CVF tentang Aplikasi Visi Komputer (hlm. 2149–2159)., Https://arxiv.org/pdf/2109.07161.pdf
[2] Tzaban, R., Mokady, R., Gal, R., Bermano, Ah dan Cohen-or, D., 2022. Jahitan tepat waktu: pengeditan wajah nyata berbasis GAN dari video sungguhan. https://arxiv.org/abs/2201.08361
[3] Kuang, Z., Olszewski, K., Chai, M., Huang, Z., Achlioptas, P. dan Tulyakov, S., 2022. Neroic: Render saraf objek dari koleksi gambar online. https://arxiv.org/pdf/2201.02533.pdf
[4] Borsos, Z., Sharifi, M. dan Tagliasacchi, M., 2022. SpeechPainter: Inpainting ucapan yang dikondisikan teks. https://arxiv.org/pdf/2202.07273.pdf
[5] Wang, X., Li, Y., Zhang, H. and Shan, Y., 2021. Towards real-world blind face restoration with generative facial prior. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 9168–9178), https://arxiv.org/pdf/2101.04061.pdf
[6] Piergiovanni, AJ, Casser, V., Ryoo, MS and Angelova, A., 2021. 4d-net for learned multi-modal alignment. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 15435–15445), https://openaccess.thecvf.com/content/ICCV2021/papers/Piergiovanni_4D-Net_for_Learned_Multi-Modal_Alignment_ICCV_2021_paper.pdf.
[7] Thomas Muller, Alex Evans, Christoph Schied and Alexander Keller, 2022, "Instant Neural Graphics Primitives with a Multiresolution Hash Encoding", https://nvlabs.github.io/instant-ngp/assets/mueller2022instant.pdf
[8] A. Ramesh et al., 2022, "Hierarchical Text-Conditional Image Generation with CLIP Latents", https://cdn.openai.com/papers/dall-e-2.pdf
[9] Nitzan, Y., Aberman, K., He, Q., Liba, O., Yarom, M., Gandelsman, Y., Mosseri, I., Pritch, Y. and Cohen-Or, D., 2022. MyStyle: A Personalized Generative Prior. arXiv preprint arXiv:2203.17272.
[10] Zhang, Susan et al. “OPT: Open Pre-trained Transformer Language Models.” https://arxiv.org/abs/2205.01068
[11] Epstein, D., Park, T., Zhang, R., Shechtman, E. and Efros, AA, 2022. BlobGAN: Spatially Disentangled Scene Representations. arXiv preprint arXiv:2205.02837.
[12] Reed S. et al., 2022, Deemind: Gato - A generalist agent, https://storage.googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf
[13] Saharia et al., 2022, Google Brain, Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding, https://gweb-research-imagen.appspot.com/paper.pdf
[14] Dayma, et al., 2021, DALL·E Mini, doi:10.5281/zenodo.5146400
[15] NLLB Team et al., 2022, No Language Left Behind: Scaling Human-Centered Machine Translation
[16] Sheinin, Mark and Chan, Dorian and O'Toole, Matthew and Narasimhan, Srinivasa G., 2022, Dual-Shutter Optical Vibration Sensing, Proc. IEEE CVPR.
[17] Gafni, O., Polyak, A., Ashual, O., Sheynin, S., Parikh, D. and Taigman, Y., 2022. Make-a-scene: Scene-based text-to-image generation with human priors. https://arxiv.org/pdf/2203.13131.pdf
[18] Yang, G., Vo, M., Neverova, N., Ramanan, D., Vedaldi, A. and Joo, H., 2022. Banmo: Building animatable 3d neural models from many casual videos. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 2863-2873).
[19] Rombach, R., Blattmann, A., Lorenz, D., Esser, P. and Ommer, B., 2022. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 10684–10695), https://arxiv.org/pdf/2112.10752.pdf
[20] Yang, J., Ang, YZ, Guo, Z., Zhou, K., Zhang, W. and Liu, Z., 2022. Panoptic Scene Graph Generation. arXiv preprint arXiv:2207.11247.
[21] Gal, R., Alaluf, Y., Atzmon, Y., Patashnik, O., Bermano, AH, Chechik, G. and Cohen-Or, D., 2022. An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion.
[22] Ni, B., Peng, H., Chen, M., Zhang, S., Meng, G., Fu, J., Xiang, S. and Ling, H., 2022. Expanding Language-Image Pretrained Models for General Video Recognition. arXiv preprint arXiv:2208.02816.
[23] Singer et al. (Meta AI), 2022, “MAKE-A-VIDEO: TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA”, https://makeavideo.studio/Make-A-Video.pdf
[24] Radford, A., Kim, JW, Xu, T., Brockman, G., McLeavey, C. and Sutskever, I., Robust Speech Recognition via Large-Scale Weak Supervision.
[25] Poole, B., Jain, A., Barron, JT and Mildenhall, B., 2022. DreamFusion: Text-to-3D using 2D Diffusion. arXiv preprint arXiv:2209.14988.
[26] Kawar, B., Zada, S., Lang, O., Tov, O., Chang, H., Dekel, T., Mosseri, I. and Irani, M., 2022. Imagic: Text-Based Real Image Editing with Diffusion Models. arXiv preprint arXiv:2210.09276.
[27] Balaji, Y. et al., 2022, eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers, https://arxiv.org/abs/2211.01324
[28] Li, Z., Wang, Q., Snavely, N. and Kanazawa, A., 2022. InfiniteNature-Zero: Learning Perpetual View Generation of Natural Scenes from Single Images. In European Conference on Computer Vision (pp. 515–534). Springer, Cham, https://arxiv.org/abs/2207.11148
[29] Taylor et al., 2022: Galactica: A Large Language Model for Science, https://galactica.org/
[30] Tang, J., Wang, K., Zhou, H., Chen, X., He, D., Hu, T., Liu, J., Zeng, G. and Wang, J., 2022. Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial Decomposition. arXiv preprint arXiv:2211.12368.
[31] OpenAI, 2022: ChatGPT: Optimizing Language Models for Dialogue, https://openai.com/blog/chatgpt/
[32] Loss et al., DisneyResearch, 2022: FRAN, https://studios.disneyresearch.com/2022/11/30/production-ready-face-re-aging-for-visual-effects/