Sora為何沒能誕生在中國?
分類: 最新資訊
禮儀詞典
編輯 : 禮儀知識
發(fā)布 : 03-17
閱讀 :464
沒聲音,再好的戲也出不來。在提示框內(nèi)輸入“中世紀(jì)小號手”,打開音效開關(guān)鍵,點擊生成視頻,一個4秒的AI生成視頻便躍然于屏幕上。人們不僅能看到一個身穿中世紀(jì)宮廷服飾樂手的畫面,還能聽到樂手吹小號的聲音。北京時間3月10日,硅谷一家AI初創(chuàng)公司Pika lab(以下簡稱Pika),推出自研視頻生成模型的新功能,可同時生成畫面和聲音。此前,人們看到的所有AI生成的視頻都沒有聲音。此功能尚未向公眾開放,但足以讓人見識到AI的進(jìn)化之快。今年2月16日,OpenAI發(fā)布文字生成視頻的大模型Sora。根據(jù)簡單幾句提示,Sora便能準(zhǔn)確“理解”文本,生成長達(dá)60秒的視頻,引發(fā)全球關(guān)注。一些業(yè)內(nèi)人士將Sora的問世稱為視頻生成領(lǐng)域的“ChatGPT 時刻”。當(dāng)?shù)貢r間3月8日,歷經(jīng)幾個月的“宮斗”大戲后,OpenAI的創(chuàng)始人山姆·奧特曼重回董事會,繼續(xù)推進(jìn)公司實現(xiàn)通用人工智能(AGI)的使命。Sora的橫空出世到底意味著什么,我們距離AGI還有多遠(yuǎn),AI的下一步將走向何方?OpenAI的創(chuàng)始人山姆·奧特曼在社交平臺發(fā)出的由文字生成的視頻。圖/IC“大力出奇跡”的再次驗證發(fā)布Sora之前,OpenAI并未向外界透露入局文生視頻的想法。直到今年年初,全球文字生成視頻賽道的焦點,仍集中在Pika、Runway、Stability AI等初創(chuàng)企業(yè)身上。去年11月底,Pika初代文生視頻產(chǎn)品發(fā)布,用戶輸入關(guān)鍵詞“馬斯克穿著太空服,3D動畫”,卡通版的馬斯克隨即出現(xiàn),在他身后,美國太空探索技術(shù)公司(SpaceX)的火箭升入空中,視頻只有三四秒,清晰度和流暢度已遠(yuǎn)超其他產(chǎn)品。彼時,Pika聯(lián)合創(chuàng)始人孟晨琳接受采訪時分析說,“為什么GPT沒有用于視頻,可能因為他們的資源、人力都集中到了文本模型上。”兩個多月后,Sora驚艷亮相。其技術(shù)負(fù)責(zé)人最新展示的視頻中,輸入“穿越博物館的飛行之旅,沿途欣賞眾多繪畫、雕塑以及各式各樣的美麗藝術(shù)作品”,AI便生成60秒的長視頻,人們跟隨鏡頭,從空中俯沖至博物館內(nèi),在多個畫廊、房間穿梭,還會從雕塑邊擦身而過。新加坡南洋理工大學(xué)計算機(jī)學(xué)院助理教授劉子緯對《中國新聞周刊》說,OpenAI入局文生視頻賽道,并不令人意外。OpenAI始終標(biāo)榜要實現(xiàn)通用AGI。“朝著AGI發(fā)展,AI不僅要‘讀萬卷書’,還要看到世界上的種種物理現(xiàn)象。OpenAI一定會在文本、圖像、音頻、視頻等多模態(tài)領(lǐng)域發(fā)展。視頻是發(fā)展多模態(tài)最重要的一步,包含了世界運(yùn)轉(zhuǎn)的基本規(guī)律。”Sora生成的視頻效果仍令劉子緯感到震撼。劉子緯3年前便開始研究AI視頻生成。相較文字和圖片,AI視頻生成的技術(shù)難度最大,對視頻數(shù)據(jù)的分辨率、內(nèi)容流暢度、一致性要求高,算力需求大。Sora之前,市面上的同類型產(chǎn)品,大多生成的視頻清晰度不高,還會出現(xiàn)畫面閃爍、人物變形的情況。Sora生成的視頻能保持很好的三維一致性。生成的內(nèi)容,比如水、云的運(yùn)動,小鳥在林中飛翔等,主體與環(huán)境的交互能一定程度上展現(xiàn)物理世界的真實性。OpenAI在其官網(wǎng)發(fā)布的Sora的技術(shù)報告中,強(qiáng)調(diào)了Diffusion Transformer(基于Transformer架構(gòu)的擴(kuò)散模型,以下簡稱DiT)的重要性,這是由兩種模型合成的新模型。兩種模型的“合璧”是Sora得以成為爆款的關(guān)鍵。Diffusion(擴(kuò)散模型)是一種有效的內(nèi)容生成模型,此前在圖片生成領(lǐng)域已展現(xiàn)出強(qiáng)大能力,能生成逼真且高質(zhì)量的圖片。Transformer是GPT這類大語言模型的基礎(chǔ)架構(gòu)。ChatGPT能對答如流,便是因為這一架構(gòu)能通過預(yù)測下一個token(文本的最小單元)出現(xiàn)的概率,更好捕捉上下文信息,生成更符合邏輯的文本。清華大學(xué)智能產(chǎn)業(yè)研究院首席研究員聶再清對《中國新聞周刊》解釋稱,OpenAI進(jìn)行視頻數(shù)據(jù)訓(xùn)練的一大“秘籍”,就是將不同尺寸、分辨率的視頻拆分成patch(視覺補(bǔ)丁,相當(dāng)于token),然后直接輸入模型學(xué)習(xí)。OpenAI官方介紹,Sora可以采樣寬屏1920x1080p、垂直屏1080x1920p及介于兩者間的所有視頻。此外,OpenAI還為訓(xùn)練的視頻集中生成字幕,可以提高文本保真度及視頻的整體質(zhì)量。但業(yè)內(nèi)共識是,DiT模型是個公開的秘密,底層技術(shù)上,Sora并沒有創(chuàng)新。早在2022年年底,DiT就被提出。當(dāng)時,美國加利福尼亞大學(xué)伯克利分校博士生威廉·皮布爾斯和紐約大學(xué)計算機(jī)學(xué)院助理教授謝賽寧聯(lián)合發(fā)表論文,在文生圖領(lǐng)域,創(chuàng)造性地將Transformer與Diffusion融合,一度引發(fā)學(xué)界轟動。劉子緯向《中國新聞周刊》介紹,去年起,國際上已有團(tuán)隊在探索利用DiT架構(gòu)訓(xùn)練文生視頻模型,包括其所在團(tuán)隊。“這是很自然的選擇。”Sora官網(wǎng)發(fā)布的部分由文字生成的視頻(截圖)。彼時,文生視頻模型有多條技術(shù)路徑,但受限于算力和數(shù)據(jù),DiT路徑尚未走通,學(xué)術(shù)團(tuán)隊和創(chuàng)業(yè)公司難以全力投入。OpenAI選擇了一條少有人走的路。在劉子緯看來,“Sora背后,與其說是模型的突破,不如說是OpenAI大模型系統(tǒng)設(shè)計的勝利”。大模型系統(tǒng)設(shè)計,涵蓋訓(xùn)練數(shù)據(jù)的細(xì)節(jié),OpenAI在算力、人才組織架構(gòu)上的積累等。這些因素最為關(guān)鍵,但OpenAI在公開信息中幾乎只字未提。Sora復(fù)制了ChatGPT的成功經(jīng)驗,再次驗證了“大力出奇跡”的暴力美學(xué),以及OpenAI“遇事不決,擴(kuò)大模型”核心價值觀的可行性。在清華大學(xué)計算機(jī)系副教授、人工智能初創(chuàng)公司壁智能聯(lián)合創(chuàng)始人劉知遠(yuǎn)看來,Sora像是AI視頻生成的“GPT-3時刻”,它證明數(shù)據(jù)的價值,高質(zhì)量、大規(guī)模的數(shù)據(jù)能訓(xùn)練出一個文生視頻模型。中國科學(xué)院深圳先進(jìn)技術(shù)研究院數(shù)字所研究員董超長期研究底層機(jī)器視覺,目前,正與團(tuán)隊研發(fā)多模態(tài)模型。他向《中國新聞周刊》強(qiáng)調(diào),選取哪些數(shù)據(jù)、如何篩選、如何標(biāo)注,直接影響模型生成的效果。想要大模型生成高質(zhì)量的視頻,要求訓(xùn)練數(shù)據(jù)分辨率高,場景細(xì)節(jié)豐富,人、物、景占比協(xié)調(diào)等,如果一些場景轉(zhuǎn)場太快,也要被剔除。Pika聯(lián)合創(chuàng)始人孟晨琳也提到,一些電影中有很多漂亮的視頻,但如果大部分都是人站著說話,動作單一,也不是訓(xùn)練大模型的優(yōu)質(zhì)數(shù)據(jù)。此外,版權(quán)問題,也會影響企業(yè)收集到足夠多高質(zhì)量的視頻。在董超看來,數(shù)據(jù)背后,人才團(tuán)隊極為重要,“大模型的訓(xùn)練絕不是看上去那么簡單,沒有經(jīng)驗根本調(diào)不通,通常要團(tuán)隊里最優(yōu)秀的人來做這件事。國外許多科技公司的頂尖AI人才,都會在一線親自處理數(shù)據(jù),寫代碼”。據(jù)OpenAI官網(wǎng)介紹,Sora的核心團(tuán)隊共15人。公開資料顯示,團(tuán)隊的成立時間尚未超過1年,三位研發(fā)負(fù)責(zé)人中,兩人都是2023年從加利福尼亞大學(xué)伯克利分校博士畢業(yè),其中一人便是前述DiT論文的作者之一威廉·皮布爾斯,另一位蒂姆·布魯克斯曾在谷歌工作近兩年,在伯克利讀博期間,主要研究方向就是圖片與視頻生成。布魯克斯和另外一位研發(fā)負(fù)責(zé)人阿迪亞·拉梅什都是OpenAI開發(fā)的文生圖模型DALL-E 3的創(chuàng)造者。從GPT-3、GPT-3.5再到GPT-4,OpenAI積累了豐富的大數(shù)據(jù)訓(xùn)練、生成與治理能力,這是支持Sora的“基礎(chǔ)設(shè)施”。“Sora團(tuán)隊只有十幾人,就說明,OpenAI給他們提供了重要的底層支持,組織架構(gòu)、人才管理、基礎(chǔ)設(shè)施,這才能讓有想法的人,真正做出能影響世界的成果。”劉子緯對《中國新聞周刊》說。通用人工智能加速到來?現(xiàn)階段的Sora并不完美。OpenAI官網(wǎng)公開的生成視頻中,Sora會產(chǎn)生不符合常識的幻覺,比如生成的椅子會變形,水杯摔碎前,水已灑在了桌面,明顯不符合物理學(xué)原理。公開的技術(shù)報告中,OpenAI寫道:Sora可能難以準(zhǔn)確模擬復(fù)雜場景的物理原理,或難以理解因果關(guān)系,分不清左右,也可能難以精確描述隨著時間推移發(fā)生的事件等。這與ChatGPT一本正經(jīng)地胡說八道相似。清華大學(xué)人工智能研究院常務(wù)副院長、計算機(jī)系自然語言處理與社會人文計算實驗室負(fù)責(zé)人孫茂松向《中國新聞周刊》解釋,這是基于Transformer架構(gòu)模型的“硬傷”。科學(xué)家曾希望人工智能像人類一樣能“演繹推理”,但努力多年,依然無法實現(xiàn)。Transformer成功讓AI產(chǎn)生了令人驚艷的生成能力。但硬幣的另一面,它不會像人類一樣思考,會產(chǎn)生幻覺。在孫茂松看來,Sora目前的另一個短板在于可控性差。如果讓Sora生成一個復(fù)雜的場景,比如根據(jù)寫好的劇本或小說生成電影,Sora目前還做不好。Sora模型的運(yùn)行方式與人類思考方式截然不同,模型根本不知道有物體存在。孫茂松舉例說,比如要生成的故事中有5個人,有不同的故事線。Sora之后有可能只生成了4個人,或者隨著時間發(fā)展,無法準(zhǔn)確連貫地呈現(xiàn)某個人應(yīng)做的動作。Pika lab官網(wǎng)展示的由文字生成的視頻(截圖)。但從另一層面看,1分鐘的視頻雖然不長,對AI文生成視頻已算巨大飛躍。“如果按照目前生成的水平,將時長從1分鐘延長到5分鐘,只需增加算力就可實現(xiàn)。本質(zhì)上是讓模型不斷地預(yù)測下一幀。”孫茂松說,但如果要對生成視頻進(jìn)行精準(zhǔn)地控制,就不只是算力的問題,對算法也提出了更高要求,技術(shù)還要發(fā)展若干年,如果這一問題解決,這將是超越ChatGPT的突破。Sora引發(fā)業(yè)內(nèi)轟動,更在于OpenAI將其定義為“世界模擬器”。OpenAI寫道:經(jīng)過大規(guī)模數(shù)據(jù)訓(xùn)練后,Sora涌現(xiàn)了新的能力,能模擬一些來自物理世界的人、動物和環(huán)境的某些方面。比如Sora生成一個人在吃漢堡,不僅會呈現(xiàn)人吃漢堡的動作,還會考慮到生成咬痕。這些能力的涌現(xiàn),是在沒有明確數(shù)據(jù)標(biāo)記的情況下產(chǎn)生的。OpenAI堅信,持續(xù)擴(kuò)大視頻模型,是開發(fā)高性能物理和數(shù)字世界模擬器的有力路徑。劉子緯解釋,OpenAI強(qiáng)調(diào)世界模擬器,與其要實現(xiàn)AGI相關(guān)。但Sora是不是世界模擬器,仍存在爭議。英偉達(dá)人工智能研究院首席研究科學(xué)家Jim Fan表示,“Sora能模擬出無數(shù)個真實或虛構(gòu)的世界”。圖靈獎得主、Meta首席科學(xué)家楊立昆認(rèn)為,“通過生成像素來對世界進(jìn)行建模是一種浪費(fèi)……注定會失敗。”上海人工智能實驗室領(lǐng)軍科學(xué)家林達(dá)華表示,“Sora 是一個視頻生成方面的里程碑式突破。但是生成逼真的視頻,跟掌握物理規(guī)律,以至實現(xiàn) AGI,那是完全不一樣的事情,之間有著巨大的鴻溝……我們測試 GPT-4 越深入,就越覺得人類離 AGI 還很遙遠(yuǎn)。”目前,學(xué)界和業(yè)界對于什么是世界模擬器,還沒有定論。這背后更本質(zhì)的分歧,還在于如何定義AGI。以楊立昆為代表的科學(xué)家認(rèn)為,AI要系統(tǒng)去理解人類世界的運(yùn)作原理,而不是一臺學(xué)習(xí)了大量人類知識的超級機(jī)器。以O(shè)penAI為代表的一方認(rèn)為,AI不用知道背后的物理規(guī)律,只要能不斷地很好地預(yù)測下一幀,還原世界的變化,就能幫助人類達(dá)到 AGI。Runway官網(wǎng)展示的由文字生成的視頻(截圖)。今年全國兩會中,對于何為AGI,全國政協(xié)委員、北京通用人工智能研究院院長朱松純給出的答案是:人工智能在日常物理和社會場景中能完成無限任務(wù)、能自主發(fā)現(xiàn)任務(wù),即“眼里有活”、有自主價值驅(qū)動。今年1月底,北京通用人工智能研究院在京展出了全球首個通用智能人的雛形——小女孩“通通”。朱松純稱,“通通”具備三四歲兒童完備的心智和價值體系,目前還在快速迭代中。在他看來,日常生活中最習(xí)以為常的能力背后,其實都是AGI要研究的核心技術(shù)問題。“實現(xiàn)通用人工智能,關(guān)鍵在于為機(jī)器‘立心’。”一個共識是,Sora一定程度上體現(xiàn)了真實世界的物理規(guī)律。“但并沒有上升到成為它的行為準(zhǔn)則,讓它能理性地去建構(gòu)世界。”劉知遠(yuǎn)對《中國新聞周刊》說。劉知遠(yuǎn)并未完全否認(rèn)Sora這一模式,他類比人類理解世界的方式,同樣分為不同層次和階段。人們上學(xué)前,通過與世界交互,比如扔一個蘋果,蘋果掉在地上,從感性上感知重力;上學(xué)后,從課本上學(xué)習(xí)萬有引力、相對論等物理規(guī)律,認(rèn)知會升華。當(dāng)一個模型初步具備了語言能力,并具備了較強(qiáng)的感性知識,像OpenAI這樣不斷擴(kuò)大模型,是否是走向世界模擬器的唯一出路?劉知遠(yuǎn)認(rèn)為,從長期來看,“大力出奇跡”顯然不可持續(xù)。科學(xué)家有沒有可能通過其他方式,讓大模型建立起對世界的理性認(rèn)識,更值得探討。劉子緯也提到,如果短期內(nèi),OpenAI希望Sora做得更好,可能需要兩條腿走路,讓模型靠數(shù)據(jù)驅(qū)動的同時,輸入一些教科書里的物理世界規(guī)律等理論知識,探索更多可能。2022年下半年,孫茂松便在許多場合預(yù)測,多模態(tài)大模型,尤其是文生視頻模型在2024年會迎來一個突破。他向《中國新聞周刊》解釋,從文字、圖片再到視頻生成,這是多模態(tài)技術(shù)合乎邏輯的走向,但接下來AI會在哪一領(lǐng)域突破,他不敢確定。具身智能,可以理解為在物理世界運(yùn)行的不同形態(tài)的機(jī)器人,融合了AI各種能力,被不少人看作AI的下一個進(jìn)化方向。當(dāng)?shù)貢r間3月1日,OpenAI公開發(fā)文稱,正在和人形機(jī)器人初創(chuàng)公司Figure合作,開發(fā)下一代人形機(jī)器人的人工智能模型,將他們的多模態(tài)模型擴(kuò)展到機(jī)器人感知、推理和交互。在孫茂松看來,多模態(tài)大模型可以通過預(yù)測下一個token,判斷機(jī)器人接下來的行動軌跡,這在專用場景有可能實現(xiàn)。但現(xiàn)實世界太復(fù)雜了,能否在通用場景下走通,還要打個問號。與此同時,Sora的出現(xiàn),再度加深了人們對深度偽造的恐慌。AI生成視頻的門檻變得更低,足以以假亂真,鑒定難度也在增大。劉子緯向《中國新聞周刊》提到,近兩年,他們團(tuán)隊也曾和一些機(jī)構(gòu)合作,做深度偽造的檢測,“當(dāng)時相對好辨別,一個普通人如果對著視頻看足夠久,可以發(fā)現(xiàn)其中的破綻”。目前,Sora生成的視頻雖有破綻,但質(zhì)量明顯提升。在劉子緯看來,整個社會需要提升對AI安全性的認(rèn)識,學(xué)界或業(yè)界目前可以做的是,在設(shè)計時就提高對AI安全性的考量,比如為AI生成的視頻添加數(shù)字水印或用于安全認(rèn)證的二維碼等。ChatGPT的發(fā)布曾引發(fā)全球?qū)ι墒紸I監(jiān)管的討論,因此,OpenAI如今更加謹(jǐn)慎。設(shè)計大模型時,為了提升安全性,技術(shù)人員會與“紅隊”人員(生成錯誤信息,仇恨、偏見等內(nèi)容的專家)合作,對模型進(jìn)行對抗性測試,以便從中發(fā)現(xiàn)系統(tǒng)中潛在的危險性,以及可能被濫用的種種可能。放棄“打籃球”,學(xué)會“下圍棋”“OpenAI在不斷前進(jìn),Sora讓大家又一次感受到,他們沒有停下,而且,前進(jìn)的速度看似更快。我們之間的差距仍然存在。”國內(nèi)知名大模型公司智譜AI相關(guān)負(fù)責(zé)人在接受《中國新聞周刊》采訪時坦言,Sora發(fā)布后,公司最關(guān)注的是,認(rèn)清差距和方向,繼續(xù)追趕。劉知遠(yuǎn)也向《中國新聞周刊》提到,中美AI的差距始終存在,中國也面臨算力等“卡脖子”問題。不過,與十年前相比,近年來,中國在AI人才儲備、科研成果等方面,與美國的差距已經(jīng)縮小。從全球范圍看,其他國家乃至美國的其他科技公司,也在追趕OpenAI。OpenAI的先發(fā)優(yōu)勢決定了,其他競爭者想要復(fù)刻Sora,并不簡單。在劉子緯看來,如果只是從模型層面復(fù)刻并不難,Dit有開源代碼,許多團(tuán)隊也都探索過。但模型就像冰山一角,冰山底下很龐大,如何把聰明的人才聚集在一起——有人擅長做數(shù)據(jù),有人擅長訓(xùn)練模型等,每個人發(fā)揮出最大的聰明才智,才是關(guān)鍵。劉子緯估計,如果想要復(fù)刻Sora的80%,認(rèn)真搭建底層系統(tǒng),大概在1年內(nèi)能實現(xiàn)。中國為何沒有做出Sora?在董超看來,首先是人才的差距。Sora團(tuán)隊的幾位博士生都有在一線訓(xùn)練文生圖大模型的豐富經(jīng)驗,這類人才在國內(nèi),一個人往往要帶幾十人的團(tuán)隊,很難在一線。其次,OpenAI人均算力資源量非常大,OpenAI團(tuán)隊共700多人,即便是內(nèi)部的小團(tuán)隊,也可以用幾千張GPU(圖形處理器),嘗試各種創(chuàng)新方案,OpenAI也有足夠的耐心。今年2月,《華爾街日報》曝出,OpenAI正計劃募資高達(dá)5萬億到7萬億美元,打算親自下場造芯片,為GPT的發(fā)展打造更充足的算力。相比之下,國內(nèi)算力資源緊張,如果一個團(tuán)隊拿到1000張GPU,相當(dāng)于占用了很大的資源,所做的項目會被外界格外關(guān)注,如果3~6個月還在訓(xùn)練最初的模型,不出成果,資源很可能就會被收走,這導(dǎo)致研發(fā)人員很難冒險做一些創(chuàng)新。2月21日,谷歌發(fā)布新一代開源模型Gemma。董超還提到,正確的道路往往風(fēng)險大、周期長,一般團(tuán)隊很難敢做這樣的決策。“文生視頻模型就是典型案例,OpenAI走的就是完全純粹的文生視頻模型,重新訓(xùn)練,收集大量數(shù)據(jù),經(jīng)過近一年嘗試才出成果,一旦成功,必然是顛覆性的。”相比之下,國內(nèi)科研氛圍浮躁,想三五個月就趕超國外,這樣只能在人家的工作上修修補(bǔ)補(bǔ),套殼做山寨,也容易造成內(nèi)卷,難以形成技術(shù)壁壘。2022年底, ChatGPT爆紅之后,國內(nèi)涌現(xiàn)出上百家大模型廠商,試圖打造中國版的ChatGPT。但一年后,在大語言模型上中國企業(yè)仍未真正追趕上GPT-4。在劉知遠(yuǎn)看來,如果一些投資者或從業(yè)者因為驚嘆Sora的能力,只看到表象,便一窩蜂要做中國版Sora,那只是頭痛醫(yī)頭,腳痛醫(yī)腳。如果國內(nèi)只是跟隨OpenAI在商業(yè)模式上的創(chuàng)新,不在底層技術(shù)上持續(xù)投入,那中國就永遠(yuǎn)做不出GPT-4和Sora。“哪怕我們是復(fù)制,也要在對的方向上追趕。”劉知遠(yuǎn)說。在董超看來,不要高估Sora的作用,低估OpenAI的技術(shù)儲備,更要關(guān)注其為何能產(chǎn)出Sora背后的邏輯。如果只是盯著Sora本身,很可能一年后,OpenAI又會扔出另一個“炸彈”。趕超OpenAI并不容易。自2019年OpenAI轉(zhuǎn)為營利性公司后,公司就放棄了開源策略,發(fā)布的GPT-3、GPT-3.5、GPT-4都不再開源,甚至不再公開模型參數(shù)。OpenAI甚至被埃隆·馬斯克戲稱為ClosedAI。今年2月底,OpenAI原董事會成員馬斯克甚至起訴OpenAI及公司CEO和總裁,馬斯克斥責(zé)OpenAI違背“初心”,要求OpenAI恢復(fù)開源并給予賠償。隨后,OpenAI回應(yīng)稱,隨著大模型能力的增強(qiáng),如果開源,會讓一些不道德的人使用大量硬件來構(gòu)建不安全的人工智能,因此,減少開放是有意義的。大模型是否開源,在國內(nèi)外引發(fā)巨大爭議。AI的發(fā)展離不開開源,依托于開發(fā)者社區(qū),全球科研人員都能持續(xù)貢獻(xiàn)代碼,幫助解決問題,打造更透明的人工智能,并對抗大公司的壟斷,OpenAI創(chuàng)立時也是開源的堅定支持者。但閉源大模型路徑能集中公司的資源,通過內(nèi)部用戶數(shù)據(jù)的迭代實現(xiàn)持續(xù)發(fā)展。AI未來的發(fā)展方向是全球共同關(guān)注的話題。圖/視覺中國去年以來,Meta、法國新興AI公司Mistral等AI公司相繼推出開源大模型。2月21日,谷歌發(fā)布號稱“全球性能最強(qiáng)大、輕量級”的新一代開源模型Gemma,都有向OpenAI宣戰(zhàn)的意味。不過,公認(rèn)的現(xiàn)實是,目前,開源模型的實力仍不及閉源模型,甚至有從業(yè)者曾直言,開源模型永遠(yuǎn)無法趕超閉源模型。在劉子緯看來,開源大模型有重要價值,它就像電力系統(tǒng)一樣,為更多研發(fā)者提供一個“基礎(chǔ)設(shè)施”,來對抗大科技公司的壟斷。他判斷,開源模型的發(fā)展會越來越好,盡管達(dá)不到閉源模型的水平,但未來開源大模型在某些特色能力上可能會趕超閉源大模型。多位受訪者提到,與美國相比,中國的優(yōu)勢在于,商業(yè)應(yīng)用場景多,國內(nèi)一些大模型廠商可以更好思考如何服務(wù)用戶,但仍需要有企業(yè)在自研大模型上修煉好“內(nèi)功”。沿著當(dāng)前大模型“大力出奇跡”的趨勢,OpenAI“技術(shù)爆炸”不會長期持續(xù)。雖有先發(fā)優(yōu)勢,但不代表它無法被追趕,如果一步步打好基礎(chǔ)設(shè)施,未來差距會逐漸彌合。2023年一次關(guān)于科技創(chuàng)新的討論中,朱松純提到,如果繼續(xù)沿用過去“跟跑—并跑—領(lǐng)跑”的路線,就形成一種“打籃球”的科研模式。籃球代表科技熱點,控球方始終是科技強(qiáng)國,我們的隊伍一直追著籃球滿場跑,不但會失去定力,頻繁更換方向與技術(shù)過程中還會跑散了隊伍。更重要的是,控球方已完成了軟硬件生態(tài)的布局,形成了新興產(chǎn)業(yè)“卡脖子”勢態(tài)。朱松純認(rèn)為,要放棄“打籃球”的戰(zhàn)術(shù),學(xué)會“下圍棋”的戰(zhàn)略,注重全局,不盲目“跟跑”當(dāng)前以“大數(shù)據(jù)、大算力、大模型”為特征的人工智能熱點,要從一味忙于“補(bǔ)短板”的防御戰(zhàn)略,轉(zhuǎn)為同時注重“構(gòu)筑長板”的進(jìn)攻戰(zhàn)略,獨(dú)辟蹊徑,探索一條自己的創(chuàng)新道路。發(fā)于2024.3.18總第1132期《中國新聞周刊》雜志雜志標(biāo)題:Sora將把AI帶向何方?記者:楊智杰編輯:杜瑋