字節跳動、快手,兩位短片巨頭在AI領域迎來了正面交鋒。
11月8日,位元組跳動旗下的AI內容平台即夢AI宣布,由位元組跳動自研的影片產生模式Seaweed則是針對平台使用者正式開放。根據字節跳動方面介紹,本次開放使用的豆包視頻生成模型Seaweed是該款模型的標準版,僅需60秒即能生成時長5秒的高質量AI視頻,領先國內業界3至5分鐘的所需生成時間。
《每日經濟新聞》記者在對即夢、可靈的初代版本和最新版本進行實測時發現,迭代後,兩款產品在視頻生成效果上均有多方面、不同程度的提升,可靈在空間版面和畫面細節呈現上較為準確,且對產生內容效果的調節更具彈性、便利性;而即夢在生成時間長度和影片風格上有優勢。

視覺中國
一位大模型技術人員向記者表示,視訊生成模型要實現生產內容的不同「畫風」是很難的,「技術之外,還主要看資料來源的豐富程度」。
短期內完成多次迭代
伴隨位元組跳動自研視訊生成模型Seaweed 開放使用,國內視訊生成模式比拼裡最具看點的一對——即夢、可靈終於正式交手。
它們都承載著理解物理世界,在衍生“真實”的同時盡可能放大想像的“AI造夢計劃”,但對於自身而言,即夢和可靈也都肩負字節跳動和快手又一番商業化前景開拓的重任。
事實上,即夢與可靈都在短短不到一年的時間,完成了幾次迭代。即夢3月底開啟影片生成功能內測,半年後,字節跳動發布了豆包模型家族的兩款視頻生成模型Seaweed和Pixeldance,並透過即夢AI、火山引擎小範圍邀測,如今Seaweed面向平台用戶正式開放。
工信部資訊通信經濟專家委員會委員盤和林向《每日經濟新聞》記者表示,即夢使用的新模型生成速度有所提升,給用戶的生成體驗更好了,「即夢AI目前在國內生成領域,還是比較領先的」。
可靈在6月「出生」後一鳴驚人,發布至今經歷了十餘次更新,包括發布圖生視頻功能以及1.5模型的上線等。截至目前,可靈擁有超過360萬用戶,累計產生3700萬個視頻,並在近期正式上架獨立App(應用軟體)。
《每日經濟新聞》記者選取了OpenAI官方公佈的5條sora視訊提示詞(東京街頭的女士、太空人、無人機視角的海岸、3d動畫的小怪物、雲端讀書的年輕人)分別測試即夢和可靈的初代版本和最新版本,縱向對比兩個視訊生成模型的視訊效果。
在對比即夢最初版本和最新版本生產的視訊效果後,記者發現,即夢有兩部分更新較為明顯:一個是在動態的「人事物」表現上,動作的捕捉和連貫性均有較為明顯的提升;另一個是畫面風格的差異化呈現也有比較大的進步。
以「東京街頭的女士」為例,初代即夢塑造的人物動作僵硬,特別是在腿部、腳部動作的捕捉上,整體呈現的效果是模糊和扭曲的。迭代後的新版即夢,人物動作自然流暢,腳部動態的細節處理更清晰、更符合真實世界的邏輯。
即夢與可靈差異明顯
兩個模型在迭代後,生成效果都更穩定,畫質也更優,流暢度和細節處理都更經得起推敲。不過,它們在語意理解、關鍵字捕捉和放大,以及創意想像和創意相關性的平衡上還是有明顯差異。
橫向對比,將最新版本的即夢與1.5模型可靈,對5條Sora視訊提示詞的呈現進行比拼。語意的理解和關鍵字的捕捉,讓即夢和可靈的影片呈現有所不同。
在「無人機視角的海岸」影片中,即夢對提示詞中「帶有燈塔的小島」進行了相對模糊化的處理,而無論是可靈還是Sora,這一畫面的重點都是「小島」。而在「海岸公路」的描述中,即夢的設定並不符合真實世界的邏輯。
在「太空人」的影片效果上,即夢對描述中的「冒險」並未進行描述,再次生成後,手拿咖啡騎著摩托車的太空人也忽略了「冒險」的設定。可靈則透過人物的表情以及運鏡強調「冒險」。不過,即夢和可靈都相對忽略了「電影預告」這個設定,對比之下Sora的「太空人」影片更有電影感。
在「3D動畫的小怪物」影片生成中,即夢的小怪物設定與動畫電影《怪物公司》裡的角色「薩利」幾乎相同。而提示詞中有關小怪物的部分描述,即夢的呈現也相對不甚準確,例如「短毛」設定的執行。此外,在藝術風格的呈現上,提示詞著重強調了“光照和紋理”,即夢的執行弱於可靈。
而在「東京街頭的女士」影片中,即夢在多主體複雜互動的呈現上,效果相對於可靈,表現不佳。無論是對畫面主體的「女士」或空間描述上都相對準確,但對畫面中的行人普遍進行了模糊處理,近景中的行人則出現扭曲變形。
不過,即夢AI官方透露,近期,Seaweed和Pixeldance兩款影片產生模型的Pro版將開放使用。 Pro版模型會對多主體互動以及多拍動作連貫性進行最佳化,同時攻克多鏡頭切換的一致性等難題。
在功能與體驗上,經過數輪迭代後的可靈,在生成影片時,有「創意想像和創意相關性」參數的調整,因此可以進行平衡調整。對於不希望呈現的內容,可靈也可以設置,例如模糊、拼貼、變形、動畫等。生成操作更靈活,效果可調整。
經測試,即夢視頻生成時間更短,Sora的5個提示詞的視頻生成時間,每條都不超過半分鐘。而1.5模型的可靈生成10秒高品質影片則需要耗時10分鐘以上。
需要注意的是,上述即夢、可靈生成的視頻,均由記者測試生成,不同版本、描述的細節,都會造成視頻生成效果的差異。
AI影片生成領域混戰
對於字節跳動、快手這兩大短片巨頭而言,ai視頻生成領域的對手遠不止彼此。
例如,11月8日,「AI六小龍」之一的智譜對其視訊生成工具清影進行升級。升級後的清影支援任意比例的影像生成視頻,並且具備多通道生成能力,同一指令或圖片可以一次生成4個視頻。此外,清影可以產生與畫面相符的音效,該音效功能將在本月上線公測。
更早之前,8月31日,MiniMax發布了首款AI高清視訊生成模型技術abab-video-1,上線首月便捷報頻傳。根據MiniMax官方公眾號揭露,在視訊模型上線海螺AI的首月,海螺AI網頁版訪問量增速超800%,用戶覆蓋全球超180個國家和地區,產品連奪AI產品榜(web)9月全球增速榜及國內增速榜榜首。
北京市社會科學院管理研究所副研究員王鵬向《每日經濟新聞》記者指出,目前國內外AI視頻產品都處於快速發展階段,國外Meta、Google等科技巨頭都在積極佈局AI視頻領域;國內方面,快手可靈、即夢AI等產品也不斷迭代升級,提升使用者體驗與商業化能力。
在商業化可能性方面,東吳證券在今年8月發布的研發提到,在AI滲透率為15%的中性假設下,中國AI視訊生成產業的潛在空間為3,178億元;在全ai模式下,電影、長劇、動畫片和短劇的製作成本,相較傳統模式將下降超95%。
龐大的潛在市場規模和降本增效的「超能力」也能從可靈的使用數據上窺見一二。
在10月舉行的「2024中國電腦大會」上,快手副總裁、大模型團隊負責人張迪透露,自今年6月發布以來,快手可靈AI已有超過360萬用戶,累計生成3700萬個視頻以及超過1億張圖片。
盤和林接受《每日經濟新聞》記者採訪時表示,可靈背靠快手,擁有流量支持,所以商業化進程很快,「AI視訊產品還是要背靠網路平台,有流量才有商業潛力」。
相似的是,位元組跳動也將視訊模型的商業化放在了任務單前列。今年9月推出兩款視訊生成模型時,火山引擎總裁譚待曾公開表示,新款豆包視頻生成模型“從一落地就開始考慮商業化”,使用領域包括電商營銷、動畫教育、城市文旅和微劇本。
「AI影片將在B端和C端展現出不同的商業化潛力。」王鵬認為,面向B端,AI影片可為企業提供更有效率、低成本的影片製作和分送解決方案;在C端, AI影片可以滿足用戶對個人化、高品質影片內容的需求,還能與電商、廣告等產業結合,實現更精準的行銷與變現。