游客發(fā)表
在開發(fā)出爆款聊天機器人ChatGPT系列之后,OpenAI繼續(xù)在生成式人工智能上玩出了“新花樣”。2月16日,OpenAI推出了新的AI大模型Sora,據(jù)稱該文生視頻大模型能夠通過快速文本提示,創(chuàng)建出逼真和富有想象力的60秒視頻,視頻的效果相較之前又上了一個臺階。
據(jù)了解,該大模型的優(yōu)勢在于不僅能夠更好地理解用戶在提示中的要求,還能夠理解這些東西在現(xiàn)實世界中的存在和運動方式。OpenAI表示,“正在教人工智能理解和模擬運動中的物理世界”,目標(biāo)是訓(xùn)練模型來“幫助人們解決需要現(xiàn)實世界互動的問題”。
Sora生成的中國舞龍場景,與真實場景幾乎沒有差別
隨后,OpenAI還解釋了Sora的工作原理,表示Sora作為一個擴散模型,會從類似于靜態(tài)噪聲的視頻開始,通過多個步驟逐漸去除噪聲,使視頻由最初的隨機像素轉(zhuǎn)化為清晰地圖像場景,而此前大火的Midjourney和Stable Diffusion的圖像和視頻生成器同樣基于擴散模型,但Sora能夠通過讓模型一次預(yù)見多幀畫面,確保了即使被攝體在離開視線后仍然能保持不變,也使其展示出了對電影拍攝語法的自發(fā)理解。
Sora生成的女性眼睛,無論皮膚紋理還是瞳孔、睫毛都非常逼真
一位視頻工作者在看到Sora之后表示,“我進(jìn)入YouTube世界已經(jīng)15年時間,但OpenAI剛剛的展示讓我無言…動畫師/3D藝術(shù)家們有麻煩了,素材網(wǎng)站將變得無關(guān)緊要,任何人都可以無壁壘獲得難以置信的產(chǎn)品,內(nèi)容背后的‘想法’和故事將變得更加重要?!?/p>
Sora生成的賽博都市場景
不過,也有不少人在看了Sora生成的視頻之后表示:畫面很真實,但也很詭異。這其實是由該大模型的缺點決定的。雖然該模型能夠在一定程度上模擬現(xiàn)實場景,但仍然難以準(zhǔn)確模擬復(fù)雜場景中的物理現(xiàn)象,也無法理解具體的因果關(guān)系,還存在混淆提示的空間細(xì)節(jié)等諸多問題。
Sora生成的視頻中,老人吹蠟燭前后火苗紋絲不動,略顯詭異
此外,關(guān)于文生視頻模型安全性方面,OpenAI表示,正在開發(fā)幫助檢測誤導(dǎo)信息的工具,以此來檢查例如極端暴力、性內(nèi)容、仇恨圖像、名人肖像等違反使用政策的文本提示,確保它在顯示給用戶的內(nèi)容中沒有違反使用政策的內(nèi)容。
相關(guān)內(nèi)容
隨機閱讀
熱門排行
友情鏈接