<rp id="z16f6"><var id="z16f6"><font id="z16f6"></font></var></rp>
  • <ruby id="z16f6"><table id="z16f6"></table></ruby>

      <ruby id="z16f6"></ruby>
      <tbody id="z16f6"></tbody>
      <strong id="z16f6"></strong>
      熱線電話:0311-85290821

      Sora神話:迄今最具破壞性的網絡威脅?

      時間:2024年03月13日    熱線:0311-85290821   來源:中國新聞周刊

        中國新聞周刊記者/胡泳

        發于2024.3.11總第1131期《中國新聞周刊》雜志

        近期,美國人工智能研究公司OpenAI開發的Sora橫空出世,引發全球廣泛關注。人們一邊驚訝于它強大的文本轉視頻功能,一邊憂心于真實與虛假的界限是否會變得更加難以辨別。Sora到底是什么,是一支馬良“神筆”,還是一個超級怪物?

        Sora的技術成就和局限性

        Sora是OpenAI開發的一種先進的文本轉視頻轉換模型,它的功能和應用范圍展示了現代人工智能技術的新視野。該模型不僅限于生成幾秒鐘的視頻,還能制作長達一分鐘的視頻,在保持高視覺質量的同時忠實再現用戶指令。對于使用者來說,它仿佛將夢想變為現實。

        目前,Sora正處于獨家測試階段,只有部分紅隊人員(專門負責從對抗的角度對某一計劃、戰略、政策或產品提出質疑的專家組)、視覺藝術家、設計師和電影制片人可以使用。這一戰略舉措可確保技術在廣泛發布之前,不僅達到而且超過創意和安全的最高標準。一旦Sora可以公開并為更多人所使用,勢將在全球范圍內產生更加重大的影響。

        Sora的技術實力證明了人工智能領域取得的長足進步。Sora代表著從靜態圖像生成到動態視頻創作的飛躍,這是一個復雜的過程,不僅涉及視覺渲染,還涉及對運動和時間進程的理解。這一進步標志著人工智能在解釋和可視化時間敘事方面的能力發生了巨大轉變,使Sora不僅僅是一個創建視覺效果的工具,更仿佛成為一個講故事的人。

        該突破所帶來的沖擊波預計將橫跨視頻創作的各個方面,但它也很可能會從視頻發展到三維建模。從目前的演示來看,Sora可以理解提示中描述的元素是如何在物理世界中存在和運行的。這使得該模型能夠在視頻中準確呈現用戶意圖的動作和行為。例如,它可以逼真地再現人奔跑的景象或自然現象的運動。此外,它還能精確呈現多個角色的細節、動作類型以及主題和背景的細微之處。

        在發布Sora的同時,OpenAI公布了一份相應的技術文檔,名為《作為世界模擬器的視頻生成模型》。這篇技術論文寫道:“我們發現,視頻模型在經過大規模訓練后,會表現出許多有趣的涌現能力。這些能力使Sora能夠模擬物理世界中的人、動物和環境的某些方面!睂ora如何在內部建立世界模型,英偉達高級研究員Jim Fan博士進行了更深層次的猜測!叭绻阏J為Sora是一個像DALL-E一樣的創意玩具……那就想錯了。Sora 是一個數據驅動的物理引擎!

        也就是說,雖然目前Sora被認為僅僅是一個視頻生成模型,但像英偉達高級科學家Jim Fan這樣的計算機科學家相信,Sora實質上是一個可學習的模擬器(simulator)或世界模型(world model)。這表明,人工智能有可能從大量真實世界的視頻和那些考量物理行為的視頻(如游戲引擎Unreal Engine中的視頻,雖然OpenAI并沒有明確提到這一點)中理解物理規律和現象。

        果真如此的話,在不久的將來出現文本到3D的可能性非常大。屆時,不僅是多角度拍攝的視頻,就連虛擬空間(如元宇宙)中的視覺效果制作也能很快由人工智能輕松生成。

        從OpenAI目前公布的視頻看,制作質量相當高。許多視頻都是電影級的;所有視頻都有著高分辨率,大多數視頻看起來都像是真實的——除非你用慢動作觀看。攝影鏡頭會平移和變焦,人物和場景在3D空間中的移動具備一致性,初看起來,你甚至意識不到自己觀看的是合成影像。

        為了達到更高的逼真度,Sora 結合了兩種不同的人工智能方法。第一種是擴散模型(diffusion model),類似于DALL-E等圖像生成器中使用的那種。這類模型通過學習將隨機化的圖像像素逐漸轉換成連貫的圖像。第二種是轉換器架構(transformer architecture),用于對連續數據進行上下文分析和拼接。例如,大型語言模型即使用轉換器架構將單詞組合成一般可理解的句子。在視頻生成過程中,OpenAI將視頻片段分解成視覺的“時空補丁”(spacetime patches),Sora的轉換器架構可以對其進行處理。

        然而,與任何突破性技術一樣,Sora也有自己的局限性。盡管該模型具有先進的功能,但有時仍難以準確模擬更為復雜的場景的物理特性。這可能導致視覺效果雖給人留下深刻印象,但偶爾也會違背物理定律或無法準確呈現因果場景。例如,視頻中的角色與物體的交互方式在物理上或許并不可行,也做不到隨著時間的推移而保持一致。

        所以,雖然Sora號稱是在學習物理,但還并不能準確地建立物理模型。OpenAI的官方博客指出,它在模擬物理、理解因果關系和其他簡單細節方面遇到了困難。例如,要求生成一個人咬餅干的視頻,卻發現餅干上沒有留下任何咬痕;或是一名男子在跑步機上以錯誤的方式跑步。它還可能對提示的空間細節感到困惑,如跟隨特定的攝像頭軌跡等。

        Sora在多個戰場攻城略地

        雖非盡善盡美,人們仍然很難不被Sora早期示例的質量以及它最終對視頻、電影、游戲等產業的可能改寫所震撼。

        在視頻方面,OpenAI以外的其他公司,從谷歌等巨頭到Runway等初創公司,都已經推出了文本到視頻的人工智能項目。但 OpenAI表示,Sora的獨特之處在于其驚人的真實感,以及它能夠生成比其他模型通常拿出的簡短片段更長的剪輯。

        例如,OpenAI公布的一個視頻片段,提示要求制作“一個矮矮的毛茸茸的怪物跪在紅蠟燭旁邊的動畫場景”,還有一些詳細的舞臺指示(“睜大眼睛和張開嘴巴”)以及對所需氛圍的描述。結果,Sora創造了一種皮克斯風格的生物,似乎具有來自《怪獸電力公司》(Monsters, Inc。)中的怪物的DNA。當《怪獸電力公司》2001年上映時,皮克斯曾經大肆宣揚制作怪物皮毛的超復雜紋理有多么困難,因為在生物移動時,這些紋理也會隨之變化。皮克斯的“巫師”們花了數月時間才把它做得恰到好處。而OpenAI的新文本轉視頻機器似乎輕易就做到了這一點。這當中并沒有編碼,Sora完全是從觀察到的大量數據中學習3D幾何和一致性的。

        盡管場景確實令人印象深刻,但Sora的能力中最令人震驚的是那些它尚未接受過訓練的能力。如前所述,Sora由OpenAI的DALL-E 3圖像生成器使用的擴散模型版本以及GPT-4的基于Transformer的引擎驅動,它不僅能夠制作出滿足提示需求的視頻,而且在這樣做的同時,還展現了對電影語法的新型理解,這可以轉化為講故事的才能。

        比如,另一個視頻根據“一個色彩絢麗的珊瑚礁紙藝世界,充滿了色彩繽紛的魚類和海洋生物”創建。研究人員發現,Sora通過鏡頭角度和時間安排創造了敘事主旨!皩嶋H上有多個鏡頭變化——這些變化不是縫合在一起的,而是由模型一次性生成的”,“我們沒有告訴它要這樣做,它就自動完成了!

        OpenAI團隊沒有展示并且可能在相當長一段時間內不會發布的Sora的一個功能是,從單個圖像或一系列幀生成視頻的能力。這將提高講故事的能力:你可以準確地畫出你的想法,然后將其變為現實。從講故事的情形來看,Sora可以顯示對剪輯和節奏的理解,似乎具有初步的導演能力。

        然而,文本轉視頻要威脅到實際的電影制作,將需要很長一段時間,甚至可能永遠都不會出現這種情況。你無法通過拼接120個一分鐘時長的Sora剪輯來制作一部連貫的電影,因為模型不會以完全相同的方式響應提示——連續性是不可能的。但是,對于Sora和類似程序來說,時間限制并不是障礙,它們完全可以用來改造 TikTok、Reels和其他社交平臺。在過去,為了制作一部專業電影,你需要非常昂貴的設備,而這一類的模型將使在社交媒體上制作視頻的普通人創作出非常高質量的內容。

        考慮到其進展速度,想象在幾個月內人工智能模型能夠創建長達五到十分鐘的多場景、多角色的復雜視頻并不算瘋狂。然而,從孤立的剪輯到制作一種以故事形式運行的媒介,讓觀眾在觀看時不會脫離其中,還有漫長的路要走。除非Sora成為一款為創作者提供完全定制和控制的開源應用程序,否則它不會顛覆電影產業。但顯然,該技術可以加快經驗豐富的電影制作人的工作速度,同時完全取代經驗不足的數字藝術家。

        另一個常常被提及、可能同樣遭遇顛覆的行業是視頻游戲。正如OpenAI的論文所述,“Sora 可以用基本策略控制Minecraft(一款電子游戲)中的玩家,同時以高保真度渲染世界及其動態”。顯然,這只是其游戲潛力的開始。未來的視頻游戲機可能會使用擴散技術實時生成交互式視頻流,而不是由藝術家手工渲染數十億個多邊形。

        一些人推測Sora接受了視頻游戲引擎的訓練,特別是Epic Games的虛幻引擎5(Unreal Engine 5)。雖然Sora幾乎肯定不會使用視頻游戲引擎來打造令人著迷的感覺,但視頻游戲世界可能被用來幫助訓練Sora的底層模型。某些Sora演示看起來確實與現有的視頻游戲世界非常相似。2023年,游戲開發者已經受到裁員的打擊,Sora可能會給他們帶來進一步的災難。當然,它也可以顯著降低進入門檻。

        總體來看,Sora的核心是一個多方面的人工智能系統,能夠理解和執行跨越不同領域的任務。與以前專門用于文本生成、圖像識別或策略游戲等特定任務的模型不同,Sora旨在彌合這些功能,提供更全面的方法。這是通過機器學習的尖端技術實現的,包括深度學習、強化學習和遷移學習,它們使得Sora能夠利用在一個領域獲得的知識來提高另一領域的表現。

        Sora最引人注目的方面之一是它的適應性。OpenAI強調了創建能夠從最少的輸入中學習并輕松適應新挑戰的人工智能系統的重要性。Sora體現了這一原則,展示了理解上下文、生成相關響應甚至從交互中學習的能力。這種適應性不僅增強了Sora在各種任務中的性能,還減少了大量再訓練的需要,使其成為人工智能應用更高效、更具成本效益的解決方案。

        2024:不再可能區分人工智能和現實

        然而,不管Sora有多么神奇,公司外部幾乎沒有人試用過它——這始終是一個警示信號。

        從某種意義上說,OpenAI大可改名CloseAI,盡管其產品的功能強大到足以顛覆我們對世界的看法,但沒人告知我們產品的內部運作方式是怎樣的。公司外部的人員沒有機會研究或測試 Sora,了解它是如何構建的,與以前的產品進行比較也是不可能的。我們只是知道,與大語言模型類似,OpenAI注入Sora的計算能力越強,其輸出的質量就越高。

        然而它的訓練數據是從哪來的呢?公司含糊其詞。發言人只是說該模型是根據“經許可的和可公開獲取的內容”進行訓練的;當被問及潛在危害時,發言人表示公司仍在努力解決“錯誤信息、仇恨內容和偏見”。所有這些,就像當初ChatGPT問世一樣,引發了人們對深度造假、版權侵權、藝術家生計、隱藏偏見等方面極其熟悉但又頗為嚴重的擔憂。

        OpenAI表示,“我們從大型語言模型中汲取靈感,通過在互聯網規模數據上進行訓練來獲得通用能力”。所謂“汲取靈感”是對Sora訓練數據來源的唯一回避性提及。在論文中,OpenAI進一步指出,“訓練文本到視頻生成系統需要大量的視頻和相應的文字說明”。大量視覺數據的唯一來源可以在互聯網上找到,這也暗示了Sora的來源。

        此前,OpenAI因使用《紐約時報》文章訓練GPT-2和GPT-3未付費而面臨訴訟。到目前為止,從整個互聯網上搜索訓練數據的理由是,這些數據都是公開的。然而“可公開獲取”并不總是等同于“公域”。是否有藝術家、攝影師、表演者和電影制片人的作品被用于訓練Sora?他們是否允許其創意作品以這種方式被使用?

        看起來新的Sora和舊時的GPT在做同樣的事情,只不過此次是專門針對視頻。也和以前一樣,OpenAI對自己的訓練模型所依據的數據諱莫如深。

        蒙著神秘面紗的Sora也許會成為一臺想象引擎,一場電影革命,或者一架視頻機器。但眼下最好將其視為一種挑釁或一波廣告攻勢。在很大程度上,OpenAI不是在發布產品,而是在制造神話。公眾所有的看熱鬧都近似一種狗仔隊行為。

        所以,盡管我對Sora印象非常深刻,但我并不完全相信這種炒作。需要等到普通人可以使用這個工具,因為現在公眾對 Sora的看法是經過精心策劃的。OpenAI首席執行官山姆·阿爾特曼(Sam Altman)本人和該公司在新聞稿中分享了最精彩的視頻。他們向一小群經過精心選擇的用戶提供了訪問權限;蛟S可以把這些當作一個“偉大的科技公司產品演示”,而我們并不知道當我們擁有這樣的工具時,生成的視頻是否會那么好。

        在這種情況下,我們不由得擔心Sora構建中的安全和倫理考量。一個持久的問題是虛假信息,比如深度偽造。與生成式人工智能中的其他技術一樣,沒有理由相信文本到視頻不會繼續快速改進,從而讓我們越來越接近難以區分真假的時代。想象一下,這項技術如果與人工智能驅動的聲音克隆相結合,是否會在構建那些人們從未做過的事情的深度偽造方面開辟出一條全新的道路?

        Sora的視頻在描述有大量動作的復雜場景時仍然會出現一些奇怪的故障,這表明這類深度偽造視頻目前還可被檢測出來。然而長遠看,必將出現魚目混珠的局面。隨著Sora在2024年用人工智能生成的視頻讓世界幾乎不再可能區分人工智能和現實,信息時代已經結束,而虛假信息時代正式開始了。

        到2030年,大多數人都將知道,使用免費的人工智能工具可以偽造任何視頻、任何聲音或任何陳述。他們每天都會在網上生成難以計數的虛構,而且其數量在未來的更多年里只會激增。

        我們生活在這樣的時代,人類知識的總和幾乎完全可以從我們口袋里的小裝置中獲取,但人工智能卻有可能毒害這口井。這并不是新鮮事——Sora不是互聯網面臨的第一個威脅,也不會是最后一個,但它很可能是迄今為止最具破壞性的。

        從媒介素養的角度來看,這將使得驗證任何用戶生成的內容變得極為復雜,因為現在用戶可以生成他們想要的任何內容。由于我們現在生活的整個世界都是后真相的,所以很多人致力于在故事中編造虛假的敘述。圖像比文本更難,因為你必須具備Photoshop或類似軟件的應用知識,它存在進入障礙。而視頻是一個更高量級的難點。制作虛假視頻需要花費大量時間、專業知識和金錢。但有了Sora及類似應用,現在只需輸入提示并獲取即可。

        這將如何改變新聞業?我相信Sora使各路議程設定者能夠生成比過去多得多的內容。而人工智能生成的營銷者和影響者內容的爆炸式增長,這可能有效排擠合法的新聞和媒體。

        可嘆的是,人們對這樣的可怕未來不僅渾然不覺,反而拼命歡呼每一波新的人工智能技術浪潮的到來。新技術總是具有天然的眼球吸引力,各種大小媒體的流量追逐并不新鮮。然而,在隨波逐流當中,鮮有人分析人工智能報道的框架。有誰在認真對這些技術的工作原理進行澄清嗎?存在令人信服的對一些真正離譜的炒作的有力回應嗎?

        結果是什么呢?公眾得到的是科幻版的人工智能故事,最終被排除在圍繞倫理、使用和未來工作的重要討論之外。這一切都在加劇對人工智能理解的好萊塢化。

        (作者系北京大學新聞與傳播學院教授)

        《中國新聞周刊》2024年第9期

        聲明:刊用《中國新聞周刊》稿件務經書面授權

      編輯:【梁周杰】
      中新社簡介      |      關于我們      |      新聞熱線      |      法律顧問

      本網站所刊載信息,不代表中新社和中新網觀點。 刊用本網站稿件,務經書面授權。

      未經授權禁止轉載、摘編、復制及建立鏡像,違者將依法追究法律責任。

      [網上傳播視聽節目許可證(0106168)] [京ICP證040655號] [京公網安備:110102003042] [京ICP備05004340號-1]

      精品久久久无码中文字幕_国产交换配乱婬视频手机版_成在人线免费av无码高潮水_国产激情久久99久久
      <rp id="z16f6"><var id="z16f6"><font id="z16f6"></font></var></rp>
    1. <ruby id="z16f6"><table id="z16f6"></table></ruby>

        <ruby id="z16f6"></ruby>
        <tbody id="z16f6"></tbody>
        <strong id="z16f6"></strong>