【新視野】時間、空間可控的視頻生成走進現實,阿里大模型新作VideoComposer火了
機器之心編輯部
在 AI 繪畫領域,阿里提出的 Composer 和斯坦福提出的基于 Stable diffusion 的 ControlNet 引領了可控圖像生成的理論發展。但是,業界在可控視頻生成上的探索依舊處于相對空白的狀態。
相比于圖像生成,可控的視頻更加復雜,因為除了視頻內容的空間的可控性之外,還需要滿足時間維度的可控性。基于此,阿里巴巴和螞蟻集團的研究團隊率先做出嘗試并提出了 VideoComposer,即通過組合式生成范式同時實現視頻在時間和空間兩個維度上的可控性。
(相關資料圖)
論文地址:/abs/
項目主頁:
前段時間,阿里巴巴在魔搭社區和 Hugging Face 低調開源了文生視頻大模型,意外地受到國內外開發者的廣泛關注,該模型生成的視頻甚至得到馬斯克本尊的回應,模型在魔搭社區上連續多天獲得單日上萬次國際訪問量。
Text-to-Video 在推特
VideoComposer 作為該研究團隊的最新成果,又一次受到了國際社區的廣泛關注。
VideoComposer 在推特
事實上,可控性已經成為視覺內容創作的更高基準,其在定制化的圖像生成方面取得了顯著進步,但在視頻生成領域仍然具有三大挑戰:
復雜的數據結構,生成的視頻需同時滿足時間維度上的動態變化的多樣性和時空維度的內容一致性;
復雜的引導條件,已存在的可控的視頻生成需要復雜的條件是無法人為手動構建的。比如 Runway 提出的 Gen-1/2 需要依賴深度序列作條件,其能較好的實現視頻間的結構遷移,但不能很好的解決可控性問題;
缺乏運動可控性,運動模式是視頻即復雜又抽象的屬性,運動可控性是解決視頻生成可控性的必要條件。
在此之前,阿里巴巴提出的 Composer 已經證明了組合性對圖像生成可控性的提升具有極大的幫助,而 VideoComposer 這項研究同樣是基于組合式生成范式,在解決以上三大挑戰的同時提高視頻生成的靈活性。具體是將視頻分解成三種引導條件,即文本條件、空間條件、和視頻特有的時序條件,然后基于此訓練 Video LDM (Video Latent Diffusion Model)。特別地,其將高效的 Motion Vector 作為重要的顯式的時序條件以學習視頻的運動模式,并設計了一個簡單有效的時空條件編碼器 STC-encoder,保證條件驅動視頻的時空連續性。在推理階段,則可以隨機組合不同的條件來控制視頻內容。
實驗結果表明,VideoComposer 能夠靈活控制視頻的時間和空間的模式,比如通過單張圖、手繪圖等生成特定的視頻,甚至可以通過簡單的手繪方向輕松控制目標的運動風格。該研究在 9 個不同的經典任務上直接測試 VideoComposer 的性能,均獲得滿意的結果,證明了 VideoComposer 通用性。
圖 (a-c)VideoComposer 能夠生成符合文本、空間和時間條件或其子集的視頻;(d)VideoComposer 可以僅僅利用兩筆畫來生成滿足梵高風格的視頻,同時滿足預期運動模式(紅色筆畫)和形狀模式(白色筆畫)
方法介紹
Video LDM
隱空間。Video LDM 首先引入預訓練的編碼器將輸入的視頻 映射到隱空間表達 ,其中 。然后,在用預先訓練的解碼器 D 將隱空間映射到像素空間上去 。在 VideoComposer 中,參數設置 。
擴散模型。為了學習實際的視頻內容分布 ,擴散模型學習從正態分布噪聲中逐步去噪來恢復真實的視覺內容,該過程實際上是在模擬可逆的長度為 T=1000 的馬爾可夫鏈。為了在隱空間中進行可逆過程,Video LDM 將噪聲注入到 中,得到噪聲注入的隱變量 。然后其通過用去噪函數 作用在 和輸入條件 c 上,那么其優化目標如下:
為了充分探索利用空間局部的歸納偏置和序列的時間歸納偏置進行去噪,VideoComposer 將 實例化為一個 3D UNet,同時使用時序卷積算子和交叉注意機制。
VideoComposer
組合條件。VideoComposer 將視頻分解為三種不同類型的條件,即文本條件、空間條件和關鍵的時序條件,它們可以共同確定視頻中的空間和時間模式。VideoComposer 是一個通用的組合式視頻生成框架,因此,可以根據下游應用程序將更多的定制條件納入 VideoComposer,不限于下述列出的條件:
文本條件:文本 (Text) 描述以粗略的視覺內容和運動方面提供視頻的直觀指示,這也是常用的 T2V 常用的條件;
空間條件:
時序條件:
時空條件編碼器。序列條件包含豐富而復雜的時空依賴關系,對可控的指示帶來了較大挑戰。為了增強輸入條件的時序感知,該研究設計了一個時空條件編碼器(STC-encoder)來納入空時關系。具體而言,首先應用一個輕量級的空間結構,包括兩個 2D 卷積和一個 avgPooling,用于提取局部空間信息,然后將得到的條件序列被輸入到一個時序 Transformer 層進行時間建模。這樣,STC-encoder 可以促進時間提示的顯式嵌入,為多樣化的輸入提供統一的條件植入入口,從而增強幀間一致性。另外,該研究在時間維度上重復單個圖像和單個草圖的空間條件,以確保它們與時間條件的一致性,從而方便條件植入過程。
通過 STC-encoder 處理條件后,最終的條件序列具有與 相同的空間形狀,然后通過元素加法融合。最后,沿通道維度將合并后的條件序列與 連接起來作為控制信號。對于文本和風格條件,利用交叉注意力機制注入文本和風格指導。
訓練和推理
兩階段訓練策略。雖然 VideoComposer 可以通過圖像 LDM 的預訓練進行初始化,其能夠在一定程度上緩解訓練難度,但模型難以同時具有時序動態感知的能力和多條件生成的能力,這個會增加訓練組合視頻生成的難度。因此,該研究采用了兩階段優化策略,第一階段通過 T2V 訓練的方法,讓模型初步具有時序建模能力;第二階段在通過組合式訓練來優化 VideoComposer,以達到比較好的性能。
推理。在推理過程中,采用 DDIM 來提高推理效率。并采用無分類器指導來確保生成結果符合指定條件。生成過程可以形式化如下:
其中,ω 是指導比例;c1 和 c2 是兩組條件。這種指導機制在兩條件集合判斷,可以通過強度控制來讓模型具有更加靈活的控制。
實驗結果
在實驗探索中,該研究證明作為 VideoComposer 作為統一模型具有通用生成框架,并在 9 項經典任務上驗證 VideoComposer 的能力。
該研究的部分結果如下,在靜態圖片到視頻生成(圖 4)、視頻 Inpainting(圖 5)、靜態草圖生成生視頻(圖 6)、手繪運動控制視頻(圖 8)、運動遷移(圖 A12)均能體現可控視頻生成的優勢。
團隊介紹
公開信息顯示,阿里巴巴在視覺基礎模型上的研究主要圍繞視覺表征大模型、視覺生成式大模型及其下游應用的研究,并在相關領域已經發表 CCF-A 類論文 60 余篇以及在多項行業競賽中獲得 10 余項國際冠軍,比如可控圖像生成方法 Composer、圖文預訓練方法 RA-CLIP 和 RLEG、未裁剪長視頻自監督學習 HiCo/HiCo++、說話人臉生成方法 LipFormer 等均出自該團隊。
?THE END
轉載請聯系本公眾號獲得授權
投稿或尋求報道:content@
關鍵詞:
您可能也感興趣:
為您推薦
焦點速遞!咸菜餅家常做法?
全球資訊:用Stata進行量化分析_關于用Stata進行量化分析介紹
熱點評!再添千人起訴!美軍這個丑聞越鬧越大
排行
最近更新
- 【新視野】時間、空間可控的視頻生成走進現實,阿里大模型新...
- “千萬工程”調研行丨扮靚海上花園 煥發發展活力——浙江溫...
- 新化:萌娃進警營 體驗“不一樣”的安全宣傳教育
- 環球今日報丨新中港06月21日漲停分析
- 膠原蛋白肽固體飲料的功效與作用?
- 今日熱訊:【文化中國看巴蜀】“云頂行云”——湯文俊書法藝...
- 全國首例!中集太平洋海工順利承接國外漂浮式海上風電基礎結...
- 實時:凌云赴區縣督查防汛和燃氣安全工作
- 每日觀點:常來常新!看西安城市文化如何持續“保鮮”
- 夏至已至 聲生不息丨酷狗繁星互娛“經典重置”計劃夏季煥新...
- 環球熱資訊!鄰里情|粽葉飄香,京劇唱響美好生活,武漢硚口...
- 水滴公司(WDH.US)榮獲《機構投資者》“2023年度亞洲最佳管理...
- “你們陪我長大, 我陪你們變老”
- 湘潭“綠色交通”發展正發力-世界實時
- 端午節假期遇上“準暑期” 浙江多景區雙重“發力”
- 高考報志愿必看丨云南14所國家公辦高職(專科)600余個專業一...
- 肥皂香氣的成因及其影響因素分析|消息
- 十一位技術高管“出走”背后,中國自動駕駛行業正在“覺醒”
- 2023粵港澳車展:911 GT3 RS實車首次公眾亮相
- 實時:將9月底實現量產 全新一代北京BJ40申報圖
- 今日熱門!五一勞動獎章事跡材料_五一勞動獎章和勞動模范的區別
- 這些生肖女天生旺夫命,年齡越大越富有,娶回家就像撿到寶!
- 多地持續推進基礎設施工程建設
- 荷花玉蘭果實有什么用(荷花玉蘭果實有啥用)
- 北溪天然氣管道是哪個國家的(北溪2天然氣管道對中國影響) ...
- 2023屈原故里端午文化節開幕 世界頭條
- 熱身賽-基米希送點夸德拉多傳射 德國0-2哥倫比亞
- 提前跑路!對沖基金過去10個交易日里9天拋售美股,規模超過去...
- 每日熱訊!芳華自在笑靨如花什么意思 芳華自在笑靨如花什么意思?
- 三星醫療:子公司中標4.77億元華電集團采購項目 當前看點