近日,英偉達與慕尼黑大學等院校的研究人員聯(lián)合發(fā)布了一篇有關(guān)視頻潛在擴散模型(VideoLDM,Latent Diffusion Model)的論文,該模型能夠?qū)⑽谋巨D(zhuǎn)換成視頻,實現(xiàn)高分辨率的長視頻合成。相關(guān)論文已經(jīng)發(fā)表在預(yù)印本網(wǎng)站arXiv上。
研究人員給出“一個泰迪熊正在彈電吉他、高清、4K”等文本提示詞后,運用VideoLDM,成功生成了相關(guān)視頻(已轉(zhuǎn)為GIF格式):
目前,VideoLDM生成視頻的最高分辨率可達2048×1280、24幀。研究團隊僅公布了論文和一些成品視頻案例,暫未開放試用。
(資料圖片僅供參考)
據(jù)介紹,相對來說,該模型對于訓練和計算的要求較低。在文字大模型、文生圖大模型發(fā)展迅速的當下,受限于視頻訓練數(shù)據(jù)的計算成本高昂以及缺乏大規(guī)模公開可用的數(shù)據(jù)集等原因,視頻大模型的發(fā)展相對較慢。VideoLDM則成功解決了這個關(guān)鍵問題。
從原理上來分析,VideoLDM基于圖像數(shù)據(jù)集預(yù)訓練,并在此基礎(chǔ)上加入時間維度以形成視頻框架,最后在編碼的視頻序列上進行微調(diào),得到視頻生成器。
為進一步提高分辨率,研究人員從時間維度將其與擴散模型upsamplers對齊,并與真實視頻對比驗證,從而將其轉(zhuǎn)換為時間一致的視頻超分辨率模型。
此外,研究人員還微調(diào)了Stable Diffusion,將其轉(zhuǎn)換為視頻生成器。他們通過對Stable Diffusion的空間層進行簡單微調(diào),然后插入時間對齊層,從而實現(xiàn)了視頻的生成。
落實到應(yīng)用層面,研究人員給出了兩大具有潛力的應(yīng)用領(lǐng)域:一是駕駛數(shù)據(jù)的高分辨率視頻合成,能夠模擬特定駕駛場景,在自動駕駛領(lǐng)域中具有巨大的應(yīng)用潛力;二是創(chuàng)意內(nèi)容的生成。
在論文中,團隊給出了幾個駕駛場景視頻的生成案例:
目前,在自動駕駛領(lǐng)域,AI大模型被認為能夠賦能感知標注、決策推理等環(huán)節(jié)。
華泰證券分析師黃樂平、陳旭東等于4月13日發(fā)布研報指出,AI大模型有望解決行業(yè)數(shù)據(jù)標注準確率及成本困境。該機構(gòu)以DriveGPT為例進行分析,大模型能夠?qū)⒔煌▓鼍皥D像的標注費用從行業(yè)平均約5元/張降至約0.5元/張。
與此同時,機構(gòu)還認為大模型將賦能場景生成、軌跡預(yù)測、推理決策等環(huán)節(jié),能夠根據(jù)駕駛場景序列數(shù)據(jù),生成未來可能發(fā)生的多種駕駛環(huán)境并預(yù)測每種情況下車輛行駛軌跡。國泰君安亦指出AIGC將有助于自動駕駛的推進落地。