在開發出爆款聊天機器人ChatGPT系列之后,OpenAI繼續在生成式人工智能上玩出了“新花樣”。2月16日,OpenAI推出了新的AI大模型Sora,據稱該文生視頻大模型能夠通過快速文本提示,創建出逼真和富有想象力的60秒視頻,視頻的效果相較之前又上了一個臺階。

據了解,該大模型的優勢在于不僅能夠更好地理解用戶在提示中的要求,還能夠理解這些東西在現實世界中的存在和運動方式。OpenAI表示,“正在教人工智能理解和模擬運動中的物理世界”,目標是訓練模型來“幫助人們解決需要現實世界互動的問題”。 
Sora生成的中國舞龍場景,與真實場景幾乎沒有差別 隨后,OpenAI還解釋了Sora的工作原理,表示Sora作為一個擴散模型,會從類似于靜態噪聲的視頻開始,通過多個步驟逐漸去除噪聲,使視頻由最初的隨機像素轉化為清晰地圖像場景,而此前大火的Midjourney和Stable Diffusion的圖像和視頻生成器同樣基于擴散模型,但Sora能夠通過讓模型一次預見多幀畫面,確保了即使被攝體在離開視線后仍然能保持不變,也使其展示出了對電影拍攝語法的自發理解。 
Sora生成的女性眼睛,無論皮膚紋理還是瞳孔、睫毛都非常逼真 一位視頻工作者在看到Sora之后表示,“我進入YouTube世界已經15年時間,但OpenAI剛剛的展示讓我無言…動畫師/3D藝術家們有麻煩了,素材網站將變得無關緊要,任何人都可以無壁壘獲得難以置信的產品,內容背后的‘想法’和故事將變得更加重要。” 
Sora生成的賽博都市場景 不過,也有不少人在看了Sora生成的視頻之后表示:畫面很真實,但也很詭異。這其實是由該大模型的缺點決定的。雖然該模型能夠在一定程度上模擬現實場景,但仍然難以準確模擬復雜場景中的物理現象,也無法理解具體的因果關系,還存在混淆提示的空間細節等諸多問題。 
Sora生成的視頻中,老人吹蠟燭前后火苗紋絲不動,略顯詭異 此外,關于文生視頻模型安全性方面,OpenAI表示,正在開發幫助檢測誤導信息的工具,以此來檢查例如極端暴力、性內容、仇恨圖像、名人肖像等違反使用政策的文本提示,確保它在顯示給用戶的內容中沒有違反使用政策的內容。 |