位元組跳動、快手視訊AI正面交鋒：理解、捕捉和想像都有差異

作者：Eve Cole 更新時間：2025-02-09 23:48:02

字節跳動、快手，兩位短片巨頭在AI領域迎來了正面交鋒。

11月8日，位元組跳動旗下的AI內容平台即夢AI宣布，由位元組跳動自研的影片產生模式Seaweed則是針對平台使用者正式開放。根據字節跳動方面介紹，本次開放使用的豆包視頻生成模型Seaweed是該款模型的標準版，僅需60秒即能生成時長5秒的高質量AI視頻，領先國內業界3至5分鐘的所需生成時間。

《每日經濟新聞》記者在對即夢、可靈的初代版本和最新版本進行實測時發現，迭代後，兩款產品在視頻生成效果上均有多方面、不同程度的提升，可靈在空間版面和畫面細節呈現上較為準確，且對產生內容效果的調節更具彈性、便利性；而即夢在生成時間長度和影片風格上有優勢。

視覺中國

一位大模型技術人員向記者表示，視訊生成模型要實現生產內容的不同「畫風」是很難的，「技術之外，還主要看資料來源的豐富程度」。

短期內完成多次迭代

伴隨位元組跳動自研視訊生成模型Seaweed 開放使用，國內視訊生成模式比拼裡最具看點的一對——即夢、可靈終於正式交手。

它們都承載著理解物理世界，在衍生“真實”的同時盡可能放大想像的“AI造夢計劃”，但對於自身而言，即夢和可靈也都肩負字節跳動和快手又一番商業化前景開拓的重任。

事實上，即夢與可靈都在短短不到一年的時間，完成了幾次迭代。即夢3月底開啟影片生成功能內測，半年後，字節跳動發布了豆包模型家族的兩款視頻生成模型Seaweed和Pixeldance，並透過即夢AI、火山引擎小範圍邀測，如今Seaweed面向平台用戶正式開放。

工信部資訊通信經濟專家委員會委員盤和林向《每日經濟新聞》記者表示，即夢使用的新模型生成速度有所提升，給用戶的生成體驗更好了，「即夢AI目前在國內生成領域，還是比較領先的」。

可靈在6月「出生」後一鳴驚人，發布至今經歷了十餘次更新，包括發布圖生視頻功能以及1.5模型的上線等。截至目前，可靈擁有超過360萬用戶，累計產生3700萬個視頻，並在近期正式上架獨立App（應用軟體）。

《每日經濟新聞》記者選取了OpenAI官方公佈的5條sora視訊提示詞（東京街頭的女士、太空人、無人機視角的海岸、3d動畫的小怪物、雲端讀書的年輕人）分別測試即夢和可靈的初代版本和最新版本，縱向對比兩個視訊生成模型的視訊效果。

在對比即夢最初版本和最新版本生產的視訊效果後，記者發現，即夢有兩部分更新較為明顯：一個是在動態的「人事物」表現上，動作的捕捉和連貫性均有較為明顯的提升；另一個是畫面風格的差異化呈現也有比較大的進步。

以「東京街頭的女士」為例，初代即夢塑造的人物動作僵硬，特別是在腿部、腳部動作的捕捉上，整體呈現的效果是模糊和扭曲的。迭代後的新版即夢，人物動作自然流暢，腳部動態的細節處理更清晰、更符合真實世界的邏輯。

即夢與可靈差異明顯

兩個模型在迭代後，生成效果都更穩定，畫質也更優，流暢度和細節處理都更經得起推敲。不過，它們在語意理解、關鍵字捕捉和放大，以及創意想像和創意相關性的平衡上還是有明顯差異。

橫向對比，將最新版本的即夢與1.5模型可靈，對5條Sora視訊提示詞的呈現進行比拼。語意的理解和關鍵字的捕捉，讓即夢和可靈的影片呈現有所不同。

在「無人機視角的海岸」影片中，即夢對提示詞中「帶有燈塔的小島」進行了相對模糊化的處理，而無論是可靈還是Sora，這一畫面的重點都是「小島」。而在「海岸公路」的描述中，即夢的設定並不符合真實世界的邏輯。

在「太空人」的影片效果上，即夢對描述中的「冒險」並未進行描述，再次生成後，手拿咖啡騎著摩托車的太空人也忽略了「冒險」的設定。可靈則透過人物的表情以及運鏡強調「冒險」。不過，即夢和可靈都相對忽略了「電影預告」這個設定，對比之下Sora的「太空人」影片更有電影感。

在「3D動畫的小怪物」影片生成中，即夢的小怪物設定與動畫電影《怪物公司》裡的角色「薩利」幾乎相同。而提示詞中有關小怪物的部分描述，即夢的呈現也相對不甚準確，例如「短毛」設定的執行。此外，在藝術風格的呈現上，提示詞著重強調了“光照和紋理”，即夢的執行弱於可靈。

而在「東京街頭的女士」影片中，即夢在多主體複雜互動的呈現上，效果相對於可靈，表現不佳。無論是對畫面主體的「女士」或空間描述上都相對準確，但對畫面中的行人普遍進行了模糊處理，近景中的行人則出現扭曲變形。

不過，即夢AI官方透露，近期，Seaweed和Pixeldance兩款影片產生模型的Pro版將開放使用。 Pro版模型會對多主體互動以及多拍動作連貫性進行最佳化，同時攻克多鏡頭切換的一致性等難題。

在功能與體驗上，經過數輪迭代後的可靈，在生成影片時，有「創意想像和創意相關性」參數的調整，因此可以進行平衡調整。對於不希望呈現的內容，可靈也可以設置，例如模糊、拼貼、變形、動畫等。生成操作更靈活，效果可調整。

經測試，即夢視頻生成時間更短，Sora的5個提示詞的視頻生成時間，每條都不超過半分鐘。而1.5模型的可靈生成10秒高品質影片則需要耗時10分鐘以上。

需要注意的是，上述即夢、可靈生成的視頻，均由記者測試生成，不同版本、描述的細節，都會造成視頻生成效果的差異。

AI影片生成領域混戰

對於字節跳動、快手這兩大短片巨頭而言，ai視頻生成領域的對手遠不止彼此。

例如，11月8日，「AI六小龍」之一的智譜對其視訊生成工具清影進行升級。升級後的清影支援任意比例的影像生成視頻，並且具備多通道生成能力，同一指令或圖片可以一次生成4個視頻。此外，清影可以產生與畫面相符的音效，該音效功能將在本月上線公測。

更早之前，8月31日，MiniMax發布了首款AI高清視訊生成模型技術abab-video-1，上線首月便捷報頻傳。根據MiniMax官方公眾號揭露，在視訊模型上線海螺AI的首月，海螺AI網頁版訪問量增速超800%，用戶覆蓋全球超180個國家和地區，產品連奪AI產品榜（web）9月全球增速榜及國內增速榜榜首。

北京市社會科學院管理研究所副研究員王鵬向《每日經濟新聞》記者指出，目前國內外AI視頻產品都處於快速發展階段，國外Meta、Google等科技巨頭都在積極佈局AI視頻領域；國內方面，快手可靈、即夢AI等產品也不斷迭代升級，提升使用者體驗與商業化能力。

在商業化可能性方面，東吳證券在今年8月發布的研發提到，在AI滲透率為15%的中性假設下，中國AI視訊生成產業的潛在空間為3,178億元；在全ai模式下，電影、長劇、動畫片和短劇的製作成本，相較傳統模式將下降超95%。

龐大的潛在市場規模和降本增效的「超能力」也能從可靈的使用數據上窺見一二。

在10月舉行的「2024中國電腦大會」上，快手副總裁、大模型團隊負責人張迪透露，自今年6月發布以來，快手可靈AI已有超過360萬用戶，累計生成3700萬個視頻以及超過1億張圖片。

盤和林接受《每日經濟新聞》記者採訪時表示，可靈背靠快手，擁有流量支持，所以商業化進程很快，「AI視訊產品還是要背靠網路平台，有流量才有商業潛力」。

相似的是，位元組跳動也將視訊模型的商業化放在了任務單前列。今年9月推出兩款視訊生成模型時，火山引擎總裁譚待曾公開表示，新款豆包視頻生成模型“從一落地就開始考慮商業化”，使用領域包括電商營銷、動畫教育、城市文旅和微劇本。

「AI影片將在B端和C端展現出不同的商業化潛力。」王鵬認為，面向B端，AI影片可為企業提供更有效率、低成本的影片製作和分送解決方案；在C端， AI影片可以滿足用戶對個人化、高品質影片內容的需求，還能與電商、廣告等產業結合，實現更精準的行銷與變現。