您現(xiàn)在的位置是:綜合 >>正文
别吹Sora了,影视行业死得没那么快
綜合9827人已圍觀
簡(jiǎn)介自從OpenAI公布全新的生成式人工智能模型Sora之后,可謂是“一石激起千層浪”,相關(guān)的討論一直沒有停止。關(guān)于這個(gè)號(hào)稱“只要輸入文本指令,就能輸出60秒視頻”的新工具,人們感到期待、焦慮、恐懼……共 ...
自從OpenAI公布全新的生成式人工智能模型Sora之后,可謂是“一石激起千層浪”,相關(guān)的討論一直沒有停止。
關(guān)于這個(gè)號(hào)稱“只要輸入文本指令,就能輸出60秒視頻”的新工具,人們感到期待、焦慮、恐懼……共同組成了一幅巨大的“Sora亂象圖”。一方面,各種標(biāo)簽上寫著“該視頻由Sora生成”,但實(shí)際上是網(wǎng)友制作的搞怪視頻成為了“整活”的流量密碼,讓不少網(wǎng)絡(luò)樂子人收獲了歡樂。
網(wǎng)友將搞怪視頻打上“該視頻由sora生成的標(biāo)簽”
另一方面,雖然Sora并沒有開放使用,但網(wǎng)絡(luò)上卻出現(xiàn)了一大批“培訓(xùn)機(jī)構(gòu)”,利用行業(yè)焦慮和信息不對(duì)稱,打起了收割韭菜的算盤。一個(gè)自稱清華博士的賣課博主,入門AI課達(dá)到了199元一份,光是在視頻號(hào)里,就賣出了520多份。還有人扒出,這門AI課他一年售出了25萬套,銷售額將近5000萬。于是網(wǎng)友們紛紛陰陽怪氣地稱他為:唯一可以與奧特曼平起平坐的AI巨頭。
網(wǎng)友制作的梗圖
Sora究竟是什么?
Sora,源自日語“空(そら,發(fā)音為sora)”,不僅指代天空,還象征著無垠的空間和無限的可能性,從而引申出自由的寓意。在OpenAI關(guān)于Sora的介紹中,首頁就可以看到無數(shù)在空中自由飛翔的紙飛機(jī),象征著Sora模型的自主性和創(chuàng)造性,反映出“空”所蘊(yùn)含的自由理念。
Sora介紹頁面
關(guān)于Sora生成的各種視頻我想大伙應(yīng)該都已經(jīng)見得不少了,相信很多人在看完視頻之后都會(huì)有一個(gè)疑問:Sora是如何生成視頻的呢?
在OpenAI放出的技術(shù)報(bào)告中是這樣描述Sora的:Sora是一個(gè)“擴(kuò)散變換器(Diffusion Transformer)”。與傳統(tǒng)的變換器(包括編碼器和解碼器)在處理方式上存在類似之處,但其處理的并不是文本標(biāo)簽,而是被稱為“補(bǔ)丁(Patches)”的視覺數(shù)據(jù)。
補(bǔ)丁(Patches),其實(shí)就是大模型在處理視頻和圖像數(shù)據(jù)時(shí),將視覺數(shù)據(jù)分解成小塊或小部分的一種方法。通過將視頻壓縮到一個(gè)低維度的潛在空間,把空間的標(biāo)識(shí)分解成為多個(gè)補(bǔ)丁,以此來讓模型更好地處理和生成高質(zhì)量的視頻和圖像內(nèi)容。這種方法的優(yōu)勢(shì)在于能夠允許模型處理不同分辨率、持續(xù)時(shí)間和寬高比的視覺數(shù)據(jù),為視頻和圖像生成提供了更大的靈活性和能力。
視覺編碼過程
而“擴(kuò)散變換器”則是一種結(jié)合了擴(kuò)散模型和變換器架構(gòu)的技術(shù),能夠通過利用變換器處理數(shù)據(jù)間復(fù)雜關(guān)系的能力,以及擴(kuò)散模型逐步精煉數(shù)據(jù)的策略,來生成或預(yù)測(cè)視頻和圖像中的“干凈”補(bǔ)丁,逐步從包含噪聲的數(shù)據(jù)中恢復(fù)出干凈的數(shù)據(jù),來生成圖像或視頻。
我們舉個(gè)簡(jiǎn)單的例子,假如我們現(xiàn)在有一張狗狗的照片,我們可以一步步給這張照片增加噪點(diǎn),讓它變得越來越模糊,最終會(huì)變成一堆雜亂的噪點(diǎn)。如果我們把這個(gè)過程倒過來,對(duì)于一堆雜亂無章的噪點(diǎn),我們同樣可以一步步去除噪點(diǎn),把它還原成目標(biāo)圖片,而擴(kuò)散模型的關(guān)鍵就在于學(xué)會(huì)逆向去除噪點(diǎn)。
事實(shí)上,此前大火的Midjourney和Stable Diffusion的圖像和視頻生成器就同樣基于擴(kuò)散模型,不過不同的是Sora能夠通過讓模型一次預(yù)測(cè)多幀畫面,確保了即使被攝體在離開視線后仍然能保持不變,也使其展示出了對(duì)影視拍攝語法的全新自發(fā)理解,不僅可以跟隨對(duì)象移動(dòng)鏡頭,還可以在移動(dòng)鏡頭轉(zhuǎn)換角度的時(shí)候,仍然能夠保持畫面的合理與完整。
Sora另一個(gè)很強(qiáng)的地方在于,它“繼承”了OpenAI對(duì)文本的理解能力,能夠根據(jù)提示詞生成高質(zhì)量的圖片和視頻,并且能夠?qū)σ曨l進(jìn)行向前或向后的擴(kuò)展,例如,在這個(gè)官網(wǎng)展示的這個(gè)視頻中,Sora能夠基于同一個(gè)視頻開頭進(jìn)行拓展,延伸出不一樣的結(jié)尾,或從不同的開頭引入,最終得到同一個(gè)結(jié)尾。
三個(gè)視頻開頭最終都會(huì)走向同一個(gè)結(jié)尾
不過事實(shí)上,OpenAI的野心遠(yuǎn)不止于此,Sora不僅是一個(gè)創(chuàng)造性的工具,它實(shí)際上還是一個(gè)基于數(shù)據(jù)的復(fù)雜模擬系統(tǒng),能夠模擬現(xiàn)實(shí)或想象中的世界。它通過學(xué)習(xí)如何正確地渲染場(chǎng)景、模擬物理行為、進(jìn)行長(zhǎng)期推理和理解場(chǎng)景的含義,從而創(chuàng)建出逼真的 3D 場(chǎng)景和動(dòng)畫。
這就使其能夠創(chuàng)造出很多現(xiàn)實(shí)中不存在的視頻,例如在下面這個(gè)視頻中,提示詞為“兩艘海盜船在一杯咖啡中航行時(shí)相互爭(zhēng)斗的逼真特寫視頻”。這樣的要求不僅需要Sora生成一個(gè)逼真的3D模型,還需要讓這些模型根據(jù)物理規(guī)則動(dòng)畫化,并模擬液體的動(dòng)力學(xué),還要使用高級(jí)渲染技術(shù)來實(shí)現(xiàn)照片級(jí)的真實(shí)感,即使場(chǎng)景的語義在現(xiàn)實(shí)世界中并不存在,但引擎仍然能實(shí)現(xiàn)我們期望的正確物理規(guī)則。
這一點(diǎn)雖然目前Sora仍有缺陷,但確是一個(gè)很有前景的目標(biāo),通過建立這樣一個(gè)復(fù)雜的模擬系統(tǒng),我們就能夠?qū)φ鎸?shí)世界進(jìn)行建模和預(yù)測(cè),甚至是構(gòu)建起真實(shí)世界的數(shù)字交互。無論Google、OpenAI還是馬斯克的xAI,終極目的都是構(gòu)建起世界模型,就比方說電影《流浪地球2》里面的MOSS,就是一個(gè)強(qiáng)人工智能的化身,能夠通過構(gòu)建真實(shí)世界模型,再加上強(qiáng)大的算力,來推演不同選擇導(dǎo)致的結(jié)果,達(dá)到預(yù)測(cè)的目的,這或許就是很多人眼中AI的終極形態(tài)了吧。
不過無論如何,這些都是后話了。
Sora真會(huì)砸掉整個(gè)影視行業(yè)的飯碗?
事實(shí)上,人工智能從誕生的那一天起,就常常會(huì)成為很多人幻想中的“假想敵”,而隨著ChatGPT等新工具的發(fā)展,對(duì)于AI的遙遠(yuǎn)恐懼漸漸演變成了近在眼前的對(duì)飯碗的深深擔(dān)憂,在Sora發(fā)布后更是如此。
單就Sora生成視頻的能力來看,首當(dāng)其沖的必然是影視從業(yè)者。畢竟傳統(tǒng)方式制作一段1分鐘的視頻成本非常高,除了場(chǎng)景、燈光、演員,還要提前溝通分鏡、找好角度、考慮好攝像機(jī)與演員的走位等。如果再需要一些特殊因素,例如轉(zhuǎn)瞬即逝的光影、理想的天氣條件等,那就更要賭一賭運(yùn)氣了。
而這一切在Sora這里都不是問題,只要通過簡(jiǎn)單的提示語句,就可以直接生成視頻,而且相較于之前的AI工具,無論是視頻的時(shí)長(zhǎng)、畫面精細(xì)度,還是細(xì)節(jié)的完整性,甚至是多鏡頭拍攝,Sora都可以用“碾壓”來概括,很明顯將會(huì)為相關(guān)從業(yè)者帶來更大影響。
網(wǎng)友制作的梗圖,好萊塢經(jīng)典標(biāo)識(shí)“HOLLYWOOD”變成了“SORAWOOD”
行業(yè)調(diào)查公司CVL Economics不久前發(fā)布的一項(xiàng)對(duì)好萊塢行業(yè)領(lǐng)袖的調(diào)查顯示,目前憂慮的情緒正籠罩著整個(gè)好萊塢,36%的受訪者表示生成式AI已經(jīng)減少了他們公司的日常工作技能需求,72%的受訪公司都是生成式AI工具的最早采用者。
而在這其中還有75%的受訪者表示,生成式AI工具已經(jīng)促使他們業(yè)務(wù)部門削減與合并相關(guān)的工作崗位。還有人預(yù)計(jì),未來三年好萊塢總計(jì)會(huì)有超過20萬人的工作崗位會(huì)受到AI沖擊,其中尤其是視覺特效、音效師、畫圖師等后期工作崗位。
事實(shí)上,受到影響的并不只有影視行業(yè)從業(yè)者。面對(duì)來自Sora的“降維打擊”,AI視頻領(lǐng)域的創(chuàng)業(yè)者中,有的如Runway CEO克里斯托瓦爾·巴倫蘇埃拉一樣,做好了“Game On”的準(zhǔn)備,有的如Pika創(chuàng)始人郭文景一樣,開始籌備對(duì)標(biāo)Sora的新產(chǎn)品,也有人如Stability AI CEO埃馬德·莫斯塔克一樣,不由感慨“阿爾特曼真是一個(gè)魔術(shù)師”,并將Sora視為AI視頻界的GPT-3時(shí)刻。這一次,很多人真的感受到了危機(jī)感。
風(fēng)物長(zhǎng)宜放眼量
雖然Sora確實(shí)很勁爆,但如果因此而過分焦慮也大可不必。一方面由于Sora在其生成的視頻中仍然存在很多經(jīng)典的“靈魂錯(cuò)誤”。例如在很多視頻中,人物、動(dòng)物會(huì)憑空消失、變形或者變出分身;還會(huì)出現(xiàn)一些違背物理常識(shí)的“鬧鬼”畫面,像人吹過的蠟燭沒有變化、穿過籃筐的籃球、懸浮移動(dòng)的椅子等。
Sora生成的視頻中,老人吹蠟燭前后火苗紋絲不動(dòng),略顯詭異
另一方面也在于,AI在視頻生成的邏輯與人類的創(chuàng)作邏輯是截然不同的,這從根本上決定了Sora并不能真正辨別故事的好壞。畢竟影視是從人的情感出發(fā),最后也以觸動(dòng)人類情感為目的,也許隨著生成技術(shù)的發(fā)展,其視頻邏輯、質(zhì)量和對(duì)真實(shí)世界的模擬程度會(huì)有更高的提升,但卻不能代替人類在影視制作過程中起到的作用。還有很多人認(rèn)為,越是機(jī)器生成的東西,很多時(shí)候會(huì)愈發(fā)讓我們感受到人類之作的珍貴,例如帶著“鍋氣”的食物很多時(shí)候優(yōu)于預(yù)制菜、凝聚了工人心血的器具雖然精確度不如機(jī)械但卻有更多的“溫度”……這樣的例子可謂俯仰皆是,更何況是在影視這一最能體現(xiàn)人類情感、囊括各種藝術(shù)門類的綜合藝術(shù)呢?
事實(shí)上,除開影視劇作、劇情設(shè)計(jì)等方面的元素,即使僅從視頻呈現(xiàn)的而言,AI生成的內(nèi)容在信息量上并不能與真實(shí)拍攝相比,例如在很多電影場(chǎng)景中,人物的表達(dá)、語氣、表情的背后,不僅是各種細(xì)膩的人類情感,舉手投足之間積累的是半生的經(jīng)歷、情緒與風(fēng)土人情的總和。
這些內(nèi)容雖然看似并不顯眼,但卻時(shí)時(shí)刻刻都在傳達(dá)很多信息,正是這些內(nèi)容才真正組合成了每一個(gè)與眾不同的人,也經(jīng)由各種反應(yīng)、互動(dòng)形成了人物之間情緒的流動(dòng),也正是這些細(xì)節(jié)的變化,在無聲無息地影響著我們的情緒,為我們帶來感動(dòng),這是生成式AI很難做到的,或許這才是很多AI生成視頻看起來“沒有靈魂”的根本原因。
幾乎全片都由對(duì)話構(gòu)成的經(jīng)典電影《愛在黎明破曉前》
此外,在影視行業(yè)中使用AI早已不是新鮮事,此前曾在好萊塢橫掃最佳影片、最佳導(dǎo)演等7大獎(jiǎng)項(xiàng)的《瞬息全宇宙》就曾使用Runway的AI視頻工具,去年21世紀(jì)福克斯已經(jīng)與IBM沃森合作,用AI工具為關(guān)于AI主題的恐怖片《摩根》制作預(yù)告片,迪士尼旗下的漫威則完全使用AI制作了《秘密入侵》的開頭動(dòng)畫。
不久前,NVIDIA創(chuàng)始人黃仁勛曾在一次參訪中表示,“在過去的10年、15年中,幾乎每個(gè)人都會(huì)告訴你,學(xué)計(jì)算機(jī)對(duì)孩子來說至關(guān)重要,每個(gè)人都該學(xué)習(xí)如何編程。但事實(shí)上,情況完全相反,我們的工作是創(chuàng)造計(jì)算技術(shù),使得任何人都不再需要編程,使得編程語言變成人性的,現(xiàn)在世界上每一個(gè)人都是程序員,技術(shù)鴻溝已經(jīng)完全彌合。”
而這似乎成為了AI時(shí)代的真實(shí)寫照,無論ChatGPT-4也好、Sora也罷,通過借助日新月異的新技術(shù),不懂編程語言的人也能夠制作軟件程序,沒有影視相關(guān)技術(shù)背景的人也能夠從容地制作自己的視頻,這無疑將會(huì)進(jìn)一步,激活新的產(chǎn)能,促進(jìn)行業(yè)的發(fā)展,甚至是讓人和人之間產(chǎn)生新的鏈接,這或許才是生成式AI的更大意義。
我們有理由期待,未來必然會(huì)有更多的AI技術(shù)和電影或電視劇制作的結(jié)合與創(chuàng)新,也許會(huì)出現(xiàn)一些我們從未想象過的精彩作品,給我們帶來更多驚喜。
Tags:
相關(guān)文章
巴基斯坦西北部一政府車輛遇襲致5死
綜合中新社北京7月3日電 伊斯蘭堡消息:巴基斯坦西北部開伯爾-普什圖省當(dāng)?shù)貢r(shí)間2日發(fā)生一起政府車輛遇襲事件,造成5人死亡、10多人受傷。
據(jù)巴基斯坦《黎明報(bào)》《今日巴基斯坦》等媒體消息,當(dāng)?shù)貢r(shí)間2日14時(shí)許,一輛政府車輛在開伯爾-普什圖省巴焦?fàn)柕貐^(qū)遭路邊炸彈襲擊,造成5人死亡,其中包括1名地區(qū)助理專員和2名警察,另有10多人受傷。
目前沒有組織或個(gè)人宣稱對(duì)此次爆炸負(fù)責(zé)。發(fā)生爆炸地區(qū)的安保措施已得到加強(qiáng),相關(guān)調(diào)查正在進(jìn)行。
巴基斯坦總統(tǒng)扎爾達(dá)里和總理夏巴茲·謝里夫2日分別發(fā)聲譴責(zé)此次襲擊,并對(duì)遇難者表示哀悼。扎爾達(dá)里強(qiáng)調(diào),巴方?jīng)Q心采取一切必要措施,“徹底根除恐怖主義的禍害”。(完) 【編輯:管娜】 ...
【綜合】
閱讀更多蘋果WWDC 2023發(fā)布會(huì)舉辦日期曝光!迎XR頭顯或iOS 17首秀
綜合近日,多個(gè)爆料人指出,蘋果WWDC 2023大會(huì)全球開發(fā)者大會(huì))將于6月5日召開。并且,蘋果總部和Apple Park所在地已顯示在6月4日設(shè)置有大型活動(dòng)。根據(jù)以往慣例,預(yù)估蘋果將在4月上旬進(jìn)行WWD ...
【綜合】
閱讀更多榮耀Play 7T系列手機(jī)官宣3月28日發(fā)布,宣稱續(xù)航真的頂
綜合今天上午,榮耀Play系列產(chǎn)品經(jīng)理韋驍龍Raul率先在微博發(fā)布了一個(gè)新機(jī)預(yù)熱海報(bào),宣布將會(huì)在3月28日發(fā)布榮耀Play 7T系列手機(jī),而主打的宣傳語為“續(xù)航真的頂”,可見續(xù)航是該機(jī)的主打賣點(diǎn)。榮耀Pl ...
【綜合】
閱讀更多
熱門文章
最新文章
友情鏈接
- 方程豹豹8嚴(yán)重車禍!車報(bào)廢,人輕傷
- 在線催收車馬費(fèi)!汽車媒體這么沒底線?
- 華為Pura 80預(yù)計(jì)于5月發(fā)布:打造最強(qiáng)拍照手機(jī)
- 三星蘋果顫抖吧!曝華為正計(jì)劃重返全球智能手機(jī)市場(chǎng),目標(biāo)重奪第一
- 難得一見的好年貨 松下Technics AZ80真無線藍(lán)牙降噪耳機(jī)動(dòng)聽且智能
- 因iPad Pro銷量不佳,蘋果計(jì)劃OLED版MacBook Air推遲至2029年發(fā)布
- ?慧榮為PCIe 6.0 SSD研發(fā)新主控:速度將超30GB/s
- 布加迪的加速,帕薩特的輪胎!比亞迪漢L設(shè)計(jì)師咋想的?
- 在線催收車馬費(fèi)!汽車媒體這么沒底線?
- 陳震梅開二度!再次提前泄密未發(fā)布產(chǎn)品,OPPO Find N5真機(jī)曝光
- 44名老撾華裔新生代開啟游學(xué)普洱之旅
- AI陪伴如何更具情緒價(jià)值?最新研究稱冒充人類會(huì)讓聊天更走心
- “港車北上”香港單牌車通關(guān)量累計(jì)突破285萬輛次
- 央行:2025年5月份債券市場(chǎng)共發(fā)行各類債券71951.6億元
- (話改革·建新功)葛群:以科技創(chuàng)新為己任 塑造高質(zhì)量發(fā)展新動(dòng)能新優(yōu)勢(shì)
- 有些“防曬衣”為何不防曬? 醫(yī)生:別迷信黑科技,厚度要達(dá)標(biāo)
- 2025年鐵路暑期運(yùn)輸 鐵路上海站預(yù)計(jì)發(fā)送旅客2855萬人次
- 機(jī)構(gòu):上半年重點(diǎn)房企拿地總額同比增長(zhǎng)33.3%
- 深圳鐵路暑運(yùn)明日啟動(dòng) 料發(fā)送旅客超1870萬人次
- 在上海繁華商圈打卡“路易號(hào)”:國際頂流品牌持續(xù)看好中國市場(chǎng)