儘管世界仍在恢復,但研究並沒有減慢其瘋狂的步伐,尤其是在人工智能領域。更重要的是,今年強調了許多重要方面,例如道德方面,重要的偏見,治理,透明度等。人工智能以及我們對人腦及其與AI的聯繫的理解正在不斷發展,顯示出令人鼓舞的應用,在不久的將來改善了我們生活的質量。不過,我們應該謹慎使用我們選擇採用哪種技術。
“科學不能告訴我們我們應該做什麼,只有我們能做什麼。”
- 讓·保羅·薩特(Jean-Paul Sartre),《存在與虛無》
這是通過發布日期的AI和數據科學中最新突破的精心策劃列表,並具有清晰的視頻說明,鏈接到更深入的文章以及代碼(如果適用)。享受閱讀!
對每篇論文的完整引用在此存儲庫的末尾列出。明星這個存儲庫保持最新狀態,並保持明年的關注!配x
維護者:LouisfB01,也在YouTube上活躍,如果您想查看/聽到有關AI的更多信息,也可以作為播客!
訂閱我的時事通訊 - AI中的最新更新每週都會解釋。
隨意向我發消息,我可能錯過的任何有趣的論文都會添加到此存儲庫中。
如果您共享列表,請在Twitter @Whats_ai或LinkedIn @Lououis(What是AI)上標記我!並在我們的學習AI中與我們聊天!
?如果您想支持我的工作,則可以檢查以贊助此存儲庫或在Patreon上支持我。
您肯定會曾經經歷過這種情況:您與您的朋友合影,有人在您身後拍攝,破壞了您未來的Instagram帖子。好吧,這不再是問題。要么是一個人或垃圾桶,您忘了在拍攝自己的照片之前忘記刪除。此AI將僅自動刪除圖像中不希望的對像或人員並保存您的帖子。就像您口袋裡的專業Photoshop設計師一樣,簡單地單擊!
許多AI研究人員已經解決了這項刪除一部分圖像並替換應該出現的內容的任務。它被稱為圖像介紹,這是極具挑戰性的...
您當然可以看過電影,例如最近的Marvel或Gemini Man,Samuel L Jackson和Will Smith看起來好像年輕得多。這需要數百萬小時甚至數千個小時的工作,專業人士手動編輯他出現的場景。相反,您可以使用一個簡單的AI並在幾分鐘之內進行。確實,許多技術使您可以添加微笑,使您看起來更年輕或更老,所有這些都使用基於AI的算法自動自動。它被稱為視頻中的基於AI的面部操作,這是2022年當前的最新技術!
神經渲染。神經渲染是從像對象,人或感興趣的場景的圖片一樣,能夠在空間中產生一個現實的模型。在這種情況下,您將有幾張雕塑的圖片,並要求機器了解這些圖片中的對像在太空中的樣子。您基本上要求一台機器了解物理學並從圖像中塑造。這對我們來說很容易,因為我們只知道現實世界和深度,但是對於只能看到像素的機器來說,這是另一個挑戰。生成的模型以現實形狀看起來準確,但是它在新場景中如何融合呢?如果照明條件在拍攝的圖片中有所不同,而生成的模型則根據您看的角度不同,該怎麼辦?這對我們來說似乎很奇怪和不現實。這些是Snapchat和南加州大學在這項新研究中攻擊的挑戰。
我們已經看到了圖像介紹,該圖像旨在從圖片中刪除一個不良對象。基於機器學習的技術不僅會刪除對象,而且還可以理解圖片並以背景的外觀填充圖像的缺失部分。就像結果一樣,最近的進步令人難以置信,這項介紹任務對於許多應用程序(例如廣告或改善您未來的Instagram帖子)可能非常有用。我們還涵蓋了一個更具挑戰性的任務:視頻介紹,在該任務中,將相同的過程應用於視頻以刪除對像或人員。
視頻面臨的挑戰是在沒有任何越野車的情況下保持一致的框架。但是現在,如果我們正確地將某人從電影中刪除並且聲音仍然沒有變化,會發生什麼?好吧,我們可能會聽到鬼魂並毀了我們所有的工作。
這是我從未在頻道上涵蓋的任務來源的地方:語音介紹。您聽到了,Google的研究人員剛剛發表了一篇旨在介紹語音的論文,正如我們將看到的那樣,結果令人印象深刻。好的,我們寧願聽到,也不願看到結果,但是您明白了。它可以糾正您的語法,發音甚至消除背景噪音。我絕對需要繼續努力的所有事情,或者……只需使用他們的新模型……聽我的視頻中的示例!
您是否還擁有自己的舊照片或不好的年齡,或者您或您的父母在我們製作高質量圖像之前拍攝的?我願意,我覺得那些記憶永遠損害了。男孩,我錯了!
這種新的免費AI模型可以在一秒鐘內修復您的大部分舊圖片。即使輸入非常低或高質量的輸入也可以很好地工作,這通常是一個挑戰。
本週的論文呼籲使用生成的面部先驗來解決現實世界的盲人面部修復,以解決照片修復任務,並取得出色的結果。甚至更酷的是您可以以自己的首選方式自己嘗試。他們已經開源的代碼,創建了一個演示和在線應用程序,供您立即嘗試。如果您在上面看到的結果不夠說服,只需觀看視頻,然後讓我知道您在評論中的想法,我知道這會讓您大吃一驚!
自動駕駛汽車如何看?
您可能聽說過LiDAR傳感器或其他正在使用的怪異攝像頭。但是,他們如何工作,如何看待世界,與我們相比,他們確切地看到了什麼?如果我們想將它們放在路上,那麼了解它們的工作方式至關重要,主要是如果您在政府工作或製定下一條法規,則至關重要。而且還作為這些服務的客戶。
我們以前報導了特斯拉自動駕駛儀如何看待和工作,但它們與傳統的自動駕駛汽車不同。特斯拉僅使用攝像機來了解世界,而其中大多數(例如Waymo)使用常規攝像頭和3D激光鏡傳感器。這些LiDAR傳感器非常簡單:它們不會產生常規攝像機而不是3D點雲之類的圖像。 LIDAR攝像機測量對象之間的距離,計算它們將其投影到對象的脈衝激光器的行進時間。
不過,我們如何有效地結合這些信息並讓車輛理解它?車輛最終會看到什麼?到處都是點?足以在我們的道路上開車嗎?我們將通過Waymo和Google Research的新研究論文進行調查...
好像拍照並不是一個充滿挑戰的技術能力,我們現在正在做相反的事情:從圖片中對世界進行建模。我介紹了令人驚嘆的基於AI的模型,可以拍攝圖像並將其變成高質量的場景。一個具有挑戰性的任務包括在二維圖片世界中拍攝一些圖像,以創建對像或人在現實世界中的外觀。
拍攝幾張照片,並立即具有逼真的模型以插入您的產品。那有多酷?
我在2020年涵蓋的第一個模型(稱為nerf)上得到了顯著改善。這種改進不僅取決於結果的質量。 Nvidia使情況變得更好。
不僅質量是可比的,即使不是更好,而且還不到兩年的研究速度超過1'000倍。
去年,我分享了Dall·e,這是一個令人驚嘆的模型,它能夠從文本輸入中生成圖像,並具有令人難以置信的結果。現在是他的大哥哥達爾·E 2的時候了。您不會相信一年的進步! dall·e 2不僅可以從文本中生成影像圖像。結果是分辨率的四倍!
好像還不夠令人印象深刻,最近的模型學會了一項新技能。圖像介入。
dall·e可以從文本輸入中生成圖像。
dall·e 2可以做得更好,但它不止於此。它還可以編輯這些圖像,並使它們看起來更好!或者只需在後台添加您想要的功能。
聽起來很有趣嗎?在視頻中了解更多信息,或在下面了解更多信息!
Google Research和Tel-Aviv大學的這一新模式令人難以置信。您可以將其視為一個非常非常強大的深擊,可以做任何事情。
拍攝任何人的一百張照片,您將其角色編碼用於修復,編輯或創建所需的任何現實圖片。
如果您問我,這既令人驚訝又令人恐懼,尤其是當您查看結果時。觀看視頻以查看更多結果並了解模型的工作方式!
查看與該領域專家的訪談形式的更多AI內容的AI播客!邀請AI專家,我將介紹與AI相關的特定主題,子場和角色,以教授和分享努力收集它的人們的知識。
我們都聽說過GPT-3,並且對其能力有些清楚。當然,您當然已經看到了某些由於這種模型嚴格出生的應用程序,我在以前的有關該模型的視頻中介紹了一些應用程序。 GPT-3是由OpenAI開發的模型,您可以通過付費API訪問,但無法訪問該模型本身。
GPT-3如此強大的原因既是其建築和尺寸。它有1750億個參數。我們大腦中的神經元數量的兩倍!這個巨大的網絡幾乎在整個互聯網上進行了培訓,以了解我們如何編寫,交換和理解文本。本週,梅塔(Meta)為社區邁出了一大步。他們剛剛發布了一個同樣強大(即使不是更多),並且已經完全開源的模型。
Blobgan允許對圖像進行虛幻的操縱,使超級容易控制簡單的斑點。所有這些小斑點代表一個對象,您可以將它們移動或使其更大,更小甚至刪除它們,並且對其在圖像中所代表的對象具有相同的效果。這太酷了!
正如作者在其結果中分享的那樣,您甚至可以通過重複斑點來創建新穎的圖像,在數據集中創建一個看不見的圖像,就像一個帶有兩個吊扇的房間一樣!如果我錯了,請糾正我,但我相信這是將圖像修改像周圍移動斑點並允許在培訓數據集中看不到的編輯一樣簡單的圖像修改的論文之一。
與我們都知道的某些公司相比,您實際上可以玩這個!他們公開分享了他們的代碼和您可以立即嘗試的COLAB演示。更令人興奮的是Blobgan的工作原理。在視頻中了解更多!
來自DeepMind的Gato剛剛出版了!這是一個可以玩Atari遊戲,字幕圖像,與人聊天,控制真正的機器人手臂等等的單一變壓器!確實,它經過一次訓練,並使用相同的權重來完成所有這些任務。根據DeepMind的規定,這不僅是變壓器,而且是代理商。當您將變形金剛與多任務增強學習劑的進度混合在一起時,就會發生這種情況。
Gato是一種多模式代理。這意味著它可以為圖像創建字幕或作為聊天機器人回答問題。您可能會說GPT-3已經可以做到這一點,但是Gato可以做更多的事情……多模式源於Gato也可以在人類層面玩Atari遊戲,甚至可以執行現實世界中的任務,例如控制機器人的手臂精確移動對象。它了解單詞,圖像甚至物理學...
如果您認為DALL-E 2的結果很好,請等到您看到Google Brain的新型號可以做什麼。
Dalle-E很棒,但通常缺乏現實主義,這就是團隊用這個名為Imagen的新模型攻擊的。
他們在項目頁面上分享了很多結果以及基準,他們介紹了用於比較文本圖像模型的基準,在該模型中顯然超過了DALL-E 2以及以前的圖像生成方法。在視頻中了解更多...
Dalle Mini很棒 - 您可以使用它!
我敢肯定,您過去幾天在Twitter feed中看到了像圖片一樣。如果您想知道它們是什麼,它們是由稱為dall·e mini的AI產生的圖像。如果您從未看過這些,則需要觀看此視頻,因為您錯過了。如果您想知道這是怎麼可能的,那麼,您將在完美的視頻中,並且會在不到五分鐘的時間內知道答案。
Dalle Mini是一種免費的開源AI,可從文本輸入中產生驚人的圖像。
Meta AI的最新模型稱為“不留下的語言”,這就是這樣做的:以最先進的質量翻譯了200種不同的語言。單個模型可以處理200種語言。那有多難以置信?
我們發現,在Meta以相同的模型處理200種不同的語言時,很難嚴格取得很好的效果,而某些最複雜,最不明顯的語言甚至是Google與...轉化為...
他們使用攝像頭和任何振動表面上的激光束重建聲音,使它們能夠隔離樂器,專注於特定的揚聲器,刪除環境噪聲以及更多令人驚嘆的應用。
Make-A-Scene並不是“另一個達勒”。這個新模型的目標不是讓用戶像達勒一樣(確實很酷)按照文本提示來生成隨機圖像,而是限制了用戶對世代的控制。
取而代之的是,Meta希望向前推動創造性的表達,將這種文本對圖像趨勢與以前的素描到圖像模型相結合,從而導致“ Make-A-Scene”:文本和素描條件的圖像生成之間的奇妙混合。
用Banmo從圖片中創建可變形的3D模型!
諸如Dalle,Imagen或Midjourney等最近的所有超級強大圖像模型有什麼共同點?除了他們的高計算成本,巨大的培訓時間和共享的炒作外,它們都基於相同的機制:擴散。擴散模型最近在大多數圖像任務中獲得了最新的結果,包括使用Dalle的文本對象,但許多其他與圖像生成相關的任務,例如圖像介入,樣式傳輸或圖像超級分辨率。
?如果您想支持我的工作,則可以檢查以贊助此存儲庫或在Patreon上支持我。
Panoptic場景圖生成或PSG是一項新的問題任務,旨在基於全景分割而不是邊界框生成圖像或場景的更全面的圖表表示。它可用於理解圖像並生成描述正在發生的事情的句子。對於AI來說,這可能是最具挑戰性的任務!在下面了解更多...
諸如Dalle或穩定擴散之類的文本到圖像模型確實很酷,並讓我們可以使用簡單的文本輸入來生成出色的圖片。但是,給他們一張您的照片並要求它將其變成繪畫會更酷嗎?想像一下,能夠將任何對象,人甚至貓的圖片發送,並要求模型將其轉變為另一種風格,例如將自己變成您喜歡的藝術風格或將其添加到新場景中。
基本上,擁有Dalle的版本會多麼酷,我們可以用來Photoshop我們的圖片而不是隨機世代?擁有個性化的達勒(Dalle),同時使其更容易控制這一代人,因為“圖像價值一千個單詞”。就像擁有與Tiktok算法一樣個性化和上癮的Dalle模型。
好吧,這就是特拉維夫大學和NVIDIA的研究人員所做的。他們開發了一種調理文本到圖像模型的方法,例如我上周涵蓋的穩定擴散,並通過您將通過圖像發送的單詞來表示任何對像或概念。將輸入圖像的對象轉換為您想要的任何東西!
我們已經看到AI生成文本,然後生成圖像,最近甚至還會生成簡短的視頻,即使它們仍然需要工作。當您認為實際上沒有人參與這些作品的創建過程時,結果就令人難以置信,並且只需要訓練一次才能被穩定擴散之類的成千上萬的人使用。儘管如此,這些模型是否真的了解他們在做什麼?他們知道他們剛剛製作的圖片或視頻真正代表了什麼?當看到這樣的圖片或更複雜的視頻時,這種模型有什麼理解?
Meta AI的新型號Make-A-Video已經出來了,並且在一個句子中:它從文本中生成視頻。它不僅能夠生成視頻,而且還是新的最新方法,比以往任何時候都產生更高質量和更連貫的視頻!
您是否曾經夢想過一個好的轉錄工具,可以準確地理解您的話並寫下來?不像自動的YouTube翻譯工具……我的意思是,它們很好,但遠非完美。只需嘗試一下,然後打開視頻的功能,您就會看到我在說什麼。
幸運的是,Openai剛剛發布並為此開了一個功能強大的AI模型:耳語。
它了解我什至無法理解的東西,不是說英語的母語者(在視頻中聽),也適用於語言翻譯!
我們已經看到模型可以拿句子並生成圖像。然後,通過學習特定概念(例如對像或特定樣式)來操縱生成的圖像的其他方法。
上週,Meta發布了我涵蓋的Meak-A-Video模型,該模型使您還可以從文本句子中生成一個簡短的視頻。結果還不是完美的,但是自去年以來,我們在該領域取得的進步真是令人難以置信。
本週,我們又向前邁出了一步。
這是一種DreamFusion,這是一種新的Google研究模型,可以理解足以生成其3D模型的句子。您可以將其視為達勒或穩定的擴散,但以3D為單位。
如果您認為諸如Dalle或穩定擴散之類的圖像生成模型很酷,那麼您就不會相信這是多麼令人難以置信。 “這個”是圖像。 Imagic採用這樣的基於擴散的模型,能夠將文本拿出來並從中生成圖像,並適應模型來編輯圖像。您可以生成圖像,然後教導模型以任何您想要的方式進行編輯。
NVIDIA的最新模型Ediffi比Dalle 2或穩定擴散(例如穩定的擴散)產生看起來更好,更準確的圖像。 Ediffi可以更好地了解您發送的文本,並且更具自定義,並在Nvidia:Painter工具的上一篇論文中添加了一項功能。
?如果您想支持我的工作,則可以檢查以贊助此存儲庫或在Patreon上支持我。
產生無限的新框架,就好像您會飛向圖像一樣!
Galactica是一種大型語言模型,大小與GPT-3相當,但專門研究科學知識。該模型可以編寫白皮書,評論,Wikipedia頁面和代碼。它知道如何引用以及如何編寫方程式。對於人工智能和科學來說,這很重要。
從單個視頻中,他們可以用更高的質量實時綜合幾乎所有單詞或句子的人說話。您可以實時遵循任何音頻曲目來為會說話的頭動畫。
Chatgpt佔據了Twitter和整個Internet,這要歸功於它提供的力量和模因潛力。我們都知道能夠產生模因是征服互聯網的最佳方法,因此它起作用了。
由於您已經看到了許多示例,因此您可能已經知道Chatgpt是最近通過Openai向公眾發布的AI,您可以與您聊天。它也稱為聊天機器人,這意味著您可以在對話中與IT進行交互,從而模仿一對一的人類討論。
您可能不知道它是什麼以及它的工作原理...觀看視頻或閱讀下面的文章或博客文章以了解更多信息!
無論是在Snapchat過濾器,電影中還是為了消除一些皺紋,都是為了娛樂,我們都會想到能夠在圖片中改變我們的年齡的實用程序。
這通常是由熟練的藝術家使用Photoshop或類似工具來編輯圖片的。最糟糕的是,在視頻中,他們必須為每一幀進行此類手動編輯!試想一下,為此所需的工作量。好吧,這是解決這種情況的解決方案和新問題...?
如果您想閱讀更多論文並擁有更廣闊的視野,這是您涵蓋2021:2021的另一個很棒的存儲庫:一年充滿了令人驚嘆的AI論文- 一份評論,並隨時訂閱我的每週新聞通訊並保持最新狀態 - 與2022年AI的新出版物一起使用!
如果您共享列表,請在Twitter @Whats_ai或LinkedIn @Lououis(What是AI)上標記我!
[1] Suvorov,R.,Logacheva,E.,Mashikhin,A.,Remizova,A.,Ashukha,A.,Silvestrov,A.,Kong,N.,Goka,H. V.,2022年。解決方案的大面罩與傅立葉卷積。在IEEE/CVF冬季會議論文集(第2149–2159頁)。
[2] Tzaban,R.,Mokady,R.,Gal,R.,Bermano,AH和Cohen-Or,D.,2022年。及時縫合:基於GAN的真實視頻的面部編輯。 https://arxiv.org/abs/2201.08361
[3] Kuang,Z.,Olszewski,K.,Chai,M.,Huang,Z.,Achlioptas,P。和Tulyakov,S.,2022年。Neroic:Neroic:從在線圖像收集中的對象的神經渲染。 https://arxiv.org/pdf/2201.02533.pdf
[4] Borsos,Z.,Sharifi,M。和Tagliasacchi,M。,2022年。語音檯面:文本條件的語音介紹。 https://arxiv.org/pdf/2202.07273.pdf
[5] Wang,X.,Li,Y.,Zhang,H。和Shan,Y.,2021。朝著現實世界中的盲人面部恢復,具有生成性面部的先驗。在IEEE/CVF計算機視覺和模式識別會議論文集(第9168-9178頁),https://arxiv.org/pdf/2101.04061.pdf
[6] Piergiovanni,AJ,Casser,V.,Ryoo,MS和Angelova,A.,2021。4d-Net,用於學習的多模式對齊。 In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 15435–15445), https://openaccess.thecvf.com/content/ICCV2021/papers/Piergiovanni_4D-Net_for_Learned_Multi-Modal_Alignment_ICCV_2021_paper.pdf.
[7] Thomas Muller,Alex Evans,Christoph Schied和Alexander Keller,2022年,“具有多種解決方案的Hash編碼的即時神經圖形原始圖”,https://nvlabs.github.io/instant-ngp/instant -ngp/assets/assets/sassets/mueller20222222222instant.pdffff
[8] A. Ramesh等人,2022年,“帶有剪輯潛在的層次結構文本條件形像生成”,https://cdn.openai.com/papers/dall-e-2.pdf
[9] Nitzan,Y.,Aberman,K.,He,Q.,Liba,O.,Yarom,M.,Gandelsman,Y.,Mosseri,I.,Pritch,Y。和Cohen-Or,D. 2022 . Mystyle:個性化的生成劑ARXIV預印型ARXIV:2203.17272。
[10]張,蘇珊等。 “選擇:開放預訓練的變壓器語言模型。” https://arxiv.org/abs/2205.01068
[11] Epstein,D.,Park,T.,Zhang,R.,Shechtman,E。和Efros,AA,AA,2022年。Blobgan:Blobgan:空間散佈的場景表示。 ARXIV預印型ARXIV:2205.02837。
[12] Reed S.等,2022年,Deemind:Gato -Gato-通才代理人,https://storage.googleapis.com/deepmind-media/a%20Generalist%20Agent/generalist%20Agent.pdf
[13] Saharia等人,2022年,Google Brain,具有深度語言理解的感性文本對圖像擴散模型,https://gweb-research-imagen.appspot.com/paper.ppaper.pdf
[14] Dayma等,2021,Dall·E Mini,doi:10.5281/Zenodo.5146400
[15] NLLB Team等,2022,沒有留下的語言:按以人為本的機器翻譯
[16] Sheinin,Mark和Chan,Dorian和O'Toole,Matthew和Narasimhan,Srinivasa G.,2022年,雙 - Shutter光學振動感應,Proc。 IEEE CVPR。
[17] Gafni,O.,Polyak,A.,Ashual,O.,Sheynin,S.,Parikh,D。和Taigman,Y.與人類先驗。 https://arxiv.org/pdf/2203.13131.pdf
[18] Yang,G.,Vo,M.,Newerova,N.,Ramanan,D.,Vedaldi,A。和Joo,H.在IEEE/CVF計算機視覺和模式識別會議論文集(第2863-2873頁)。
[19] Rombach,R.,Blattmann,A.,Lorenz,D.,Esser,P。和Ommer,B.,2022年。具有潛擴散模型的高分辨率圖像合成。在IEEE/CVF計算機視覺和模式識別會議論文集(第10684–10695頁),https://arxiv.org/pdf/2112.10752.pdf
[20] Yang,J.,Ang,YZ,Guo,Z.,Zhou,K.,Zhang,W。和Liu,Z.,2022。PanopticScene Graph Generation。 ARXIV預印型ARXIV:2207.11247。
[21] Gal,R.,Alaluf,Y.,Atzmon,Y.,Patashnik,O.,Bermano,AH,AH,Chechik,G。和Cohen-Or,D.,2022年。圖像值得一個單詞:個性化文本 - 使用文本反演到圖像生成。
[22] Ni,B.,Peng,H.,Chen,M.,Zhang,S.,Meng,G.,Fu,J.,Xiang,S。和Ling,H.一般視頻識別的模型。 ARXIV預印型ARXIV:2208.02816。
[23] Singer等。 (meta ai),2022年,“ make-a-video:無文本video數據的文本到video生成”,https://makeavideo.studio/make-a-a-video.pdf
[24] Radford,A.,Kim,JW,Xu,T.,Brockman,G.,McLeavey,C。和Sutskever,I。,通過大規模的弱監督進行強有力的語音識別。
[25] Poole,B.,Jain,A.,Barron,JT和Mildenhall,B.,2022年。DreamFusion:使用2D擴散的文本到3D。 ARXIV預印型ARXIV:2209.14988。
[26] Kawar,B.,Zada,S.,Lang,O。,Tov,O.,Chang,H.,Dekel,T.,Mosseri,I。和Irani,M.,2022。帶有擴散模型的真實圖像編輯。 ARXIV預印型ARXIV:2210.09276。
[27] Balaji,Y。等,2022,Ediffi:具有專家Denoisers合奏的文本到圖像擴散模型,https://arxiv.org/abs/2211.01324
[28] Li,Z.,Wang,Q.,Snavely,N。和Kanazawa,A.,2022年。Infinitenature-Zero:從單個圖像中學習自然場景的永久視圖。在歐洲計算機視覺會議上(第515-534頁)。 Springer,Cham,https://arxiv.org/abs/2207.11148
[29] Taylor等,2022:Galactica:科學的大語言模型,https://galactica.org/
[30] Tang,J.,Wang,K.,Zhou,H.,Chen,X.,He,D.,Hu,T.,Liu,J.,Zeng,G。和Wang,J。,2022年。實時神經輻射通過音頻空間分解來綜合肖像。 ARXIV預印型ARXIV:2211.12368。
[31] OpenAI,2022:chatgpt:優化對話的語言模型,https://openai.com/blog/chatgpt/
[32] Loss et al。,Disneyresearch,2022:Fran,https://studios.disneyresearch.com/2022/2022/11/11/production-production-readuction-readine-face-face-face-re-aging- for-vor-visual-effects/-