來源:中國新聞周刊 發布時間:2024-3-18 10:57
中國新聞周刊記者 王詩涵
發于2024.3.18總第1132期《中國新聞周刊》雜志
Sora橫空出世的當夜,AI圈集體失眠。有人認為這是“降維打擊”,也有人樂壞了。
“我們特別開心。過去的一年,我們始終堅信視頻生成是件大事,認為它會對整個世界產生巨大沖擊和影響,但是沒有多少人信我們,我們花費了很多唇舌去教育市場。”愛詩科技創始人、CEO王長虎對《中國新聞周刊》說。
距離OpenAI發布Sora已近一個月,中國玩家當前表現如何?據不完全統計,至少已有15家中國大廠和創業公司陸續推出了AI視頻工具,其中有諸多產品已面向全球市場發行。
涉及Sora核心技術的相關論文,早在2022年就已發布。Sora出現前,視頻生成領域投資環境的冷遇已久;Sora出現后,創業者們在驗證技術信仰的同時,也將面臨更殘酷的市場競爭。與此同時,AI創投圈對大模型的觀點爭論仍在持續,興奮與謹慎的心態始終交織。
但顯然,AI視頻的融資風口期已經到來了。3月11日,愛詩科技宣布完成億級人民幣A1輪融資,由達晨財智領投;同時國內版文生視頻產品“愛詩視頻大模型”上線內測。
“作為最前沿的探索者,要嘗試很多技術路線,Sora的出現減少了我們的試錯成本!蓖蹰L虎說道。
在受訪者看來,當規模定律成為行業的公開秘密,文生視頻大模型的競賽也變成了“明牌游戲”,在未來,是否能持續具備足夠的資源,將成為牌桌上的重要籌碼。接下來留給中國企業的最大未知數在于:中國的大廠和創新企業,誰能跑出中國Sora?誰最有希望成為這條賽道上的頭部企業?
創業者們的技術信仰被驗證了
在眾多創業者眼里,繼ChatGPT后,Sora再次開啟了人類通往AGI(通用人工智能)道路的一扇門。
“AI本質上是創造另一個生命和文明,人類正處于創造它的前夜。Sora意味著人類可能剛找到它的眼睛,嘗試著把它拼上去。”創業者Max向《中國新聞周刊》解釋,具備自我意識的AGI需要多模態,目前,相較于語言模型的讀寫能力,AI在“眼睛(圖像視頻)”和“耳朵(音頻)”兩方面的發展相對滯后。
北京時間2月16日凌晨,OpenAI發布文生視頻大模型Sora,樣片顯示出Sora在基本視頻生成、多模態生成、視頻編輯、世界模擬等能力項上的超越式成果,也驗證了時空編碼(spacetime patches)和DiT模型(Diffusion與Transformer模型結合)技術路線的成功。
帶來“降維打擊”的Sora,樹立了文生視頻大模型領域的技術標桿,引發市場關注的同時,也將加速視頻生成賽道的技術發展與產品進度。對于創業團隊來說,則意味著此前苦苦堅持的技術信仰得以驗證。
“此前,用戶數量的快速增長已經讓我們感知到了判斷的正確,Sora再添了一把火,更加驗證了我們一開始的信仰。”王長虎感嘆。
Sora發布的同一晚,谷歌也發布了多模態AI大模型Gemini,可實現100萬token(詞元)上下文能力!拔耶敃r很激動。兩個消息一起出來,說明規模定律還在起作用。我們不知道大模型明年還會跳到什么樣,但只要繼續成長,對投資人都是一種利好,我們手里項目的能力會更強,可以做更多的事情。”峰瑞資本投資合伙人陳石回憶道。
規模定律是屬于OpenAI的“暴力美學”。從語言模型到多模態模型,OpenAI相信scale(規模)的力量,認為遵循“大模型、大數據、大算力”的法則,模型性能會持續提升,根據特定算法,則產生智能“涌現”的能力。
在過去,在AI領域,創業的門檻和難度高于其他賽道:海內外的無數創業者不懈地在這一領域堆疊技術與靈感,尋找技術理想與商業可能的交匯點,他們隨時可能向世界突然丟下一顆炸彈,再度引爆一場顛覆性的科技革命。
而當下,這些“炸彈”來得更密集和猛烈了。
“這輪AI行情有個突出的特點,就是‘天底下沒有秘密’。”陳石表示,從GPT-3、GPT-3.5到GPT-4以及Sora,產品發布不久后,其原理和算法很快就被大致猜中或主動公開,最后都歸因于規模定律,而這并不具備強大壁壘,前提是有錢買GPU卡,也需要人才、數據和工程方面的積累。
此前,海內外大廠與創企已經跑出諸多AI視頻大模型產品。海外團隊方面,有Runway的Gen-1和2、Pika Labs的Pika、Stability AI的Stable Video Diffusion、Meta的Emu Video、李飛飛團隊和谷歌合作的W.A.L.T等。國內創企方面,則有愛詩科技的PixVerse、MewXAI的藝映AI、右腦科技的Vega AI等;國內大廠則有阿里、百度、騰訊、字節等入局。
可預見的是,接下來這場“明牌游戲”里,AI視頻大模型的競爭也將愈加“殘酷”!按蠹叶家庾R到需要更多的資源,留在牌桌上的價碼越來越高。在前一階段未能及時拿到融資的團隊,未必就有機會留下了!蓖蹰L虎說。
陳石認為,當前,做大模型的公司需要重新思考定位:倘若繼續探索基礎引擎,需要在跟隨技術路線的同時找到與Sora不同的切入點;倘若轉向垂類模型或商業應用場景,則需要構建自己的技術壁壘或業務壁壘。
“投不投大模型?”
“去年成立團隊的時候,整個投資環境對視頻生成沒有太大信心。我們把嘴皮子磨破后發現,想說服投資人很不容易,很少的投資人認可并投入了我們。Sora出來之后,我們也有遺憾,如果在過去一年拿到了更多的資源,也許Sora會是我們自己做出來的!蓖蹰L虎坦言。
“投不投大模型?”或是2023年甚至2022年以來投資人們一直在思考的問題。而投資觀點的分野,并未在Sora出現后發生改變。近日,騰訊新聞《潛望》發布的兩篇人物訪談引起了AI創投圈的普遍共鳴,月之暗面創始人、CEO楊植麟和金沙江創投主管合伙人朱嘯虎的觀點,分別被認為是“技術信仰派”和“市場信仰派”的代表。
多家大模型初創企業公布自去年第二季度以來完成的融資信息。2023年4月,HiDream.ai智象未來完成種子輪融資,于12月完成由科大訊飛領投的天使輪融資。5月,Morph Studio完成數百萬美元種子輪融資,由BV百度風投單獨投資。6月,右腦科技完成數千萬元天使輪融資,由光速光合領投,奇績創壇等跟投。
新一輪融資已在今年加速。愛詩科技于去年8月完成數千萬元人民幣天使輪融資;今年3月11日,完成億級人民幣A1輪融資,由達晨財智領投。生數科技分別于去年6月和8月完成天使輪和天使+輪融資;今年3月12日,再完成新一輪數億元融資,由啟明創投領投,達泰資本、智譜AI、BV百度風投等繼續跟投。
“在一年前本次AI浪潮涌現之時,我們就相信AI視頻生成將成為新的巨大機會,斷定它將對內容生產和消費的全部相關行業產生顛覆性的影響,中國也將涌現出具備奠基意義的AI產業企業。”光源資本創始人、CEO鄭烜樂說。該機構參與了愛詩科技的早期孵化。
“當投資界不認為這是大事或能短期做成的時候,我們有自己信仰和堅信的東西。一年前倘若被不同的聲音所左右,我們做不出來PixVerse,也無法走到現在!蓖蹰L虎認為,“創業需要有長期的視角。創業者要做的,是非共識而正確的事。”
但投資人有自己看問題的視角。由于每只基金的投向受到資金來源、項目退出和收益要求、現實情況等因素影響,投資人有各自的立場:大手筆投向大模型的仍是少數,大多數投資人對模型層項目的態度相對謹慎,更傾向于尋找已經找到或看到落地場景的應用端項目!白鐾ㄓ么竽P偷钠髽I在商業化上可能是很難找到合理路徑的,這一點連OpenAI自己都沒有解決。”創業者Max說道。
為此,創企都在尋找自己的路徑。以愛詩科技為例,公司在未來計劃分兩步走:在第一階段面向創作者,提供優質視頻生成服務,更好地理解創作者動機,同時直接面向用戶,接受用戶反饋進行迭代;在第二階段則面向消費者,在提供工具的基礎上,打通創作和消費全流程,提供AI原生的可消費內容。
事實上,Sora類的底層通用大模型與應用層的垂類模型或應用之間的根本區別在于,前者是“0~1”,需要跨越科技進步的早期高門檻,專注核心技術的突破;后者則是“1~10”,是在通用大模型的基礎上找到具體的應用,更注重商業場景的認知與建設。
“去年我們看了很多文生圖、文生視頻、文生3D的項目,但通用大模型我們都沒有投。多模態的輸入輸出,看起來不一定是創業公司能做的,因為這是大模型公司的必經之路!狈迦鹳Y本投資合伙人陳石回憶道。
Morning Trail Investment 合伙人周欣華則認為,大模型競爭激烈,用戶黏性低,壟斷可能性低而成本太高,還是重復造輪子,可能剛造出來就被迭代了!熬揞^扔出王炸、創企一夜團滅的情況并非第一次,往往會對創業項目和投資人帶來致命打擊!彼J為,Sora橫空出世,顯得Pika就很雞肋;而谷歌的Gemini 1.5、Meta楊立昆的V-JEPA架構、Stability AI的Stable Diffusion 3,也是當前潛在的Sora圍剿勢力。
“重復造輪子”后被迭代的高風險,是投資人對模型端的普遍擔憂。“最大的悲哀可能是,我們造輪子造出的閉源模型比不過別人的開源模型!标愂a充說道。
“要想在底層投資上走到最后,確實需要龐大的資金、人才和資源,資源則包括算力、數據和場景,所以硅谷大廠都在投大模型公司。在當前國內的資本環境下,互聯網大廠或市場化VC基金都不一定能有做散財童子的底氣,很難在商業模式不清晰、投資成功概率不高的情況下把大模型投資進行到底!敝苄廊A說。
從大環境看,資本謹慎的趨勢已久。CVSource投中數據顯示,截至2024年2月,中國VC/PE市場投資規?傔_67.74億美元,同比下降28.83%;近3個月的投資案例數量和規模整體均呈現下跌趨勢。
不過,在創投寒冬中,AI領域的投資規模在細分領域中仍最為突出,在2月高達11.06億美元!癝ora的話題度引爆了關注,文生視頻的團隊普遍受到熱捧,但整體來講其他AI項目融資的難度可能還是和以前差不多!眲摌I者Max表示。
對于普通創業者來說,提高自身造血能力,存活下來是當前的首要目標。“先在不確定性中找到一些商業上的確定性,可以再去追求產品長遠的價值。在變動期,先上車是最重要的事情!蹦壳罢谧鯝I視頻創業項目的Fimmo分享道。
上述投資人都更傾向于看好商業模式清晰、落地場景明確的應用層項目。陳石表示,團隊投資的應用項目同商業實踐結合緊密,并具有自己的業務縱深。
“但是,當前很多應用層的項目用AI炫技的成分居多,可能觸及了用戶的癢點,卻不是痛點!敝苄廊A指出,在無法一步到位的情況下,一些過渡狀態可能存在機會。她總結了當前應用層項目的幾大優勢方向:其一,商業場景用AI嵌入工作流,用AI參與過程,從而更容易落地項目;其二,善用大模型在用戶交互方面、小模型在私密性和垂直領域Know-how把握方面的優勢,將大、小模型結合的垂類應用項目;其三,利用AI的能力,使出海拓展更加高效可行的項目。
“應用層項目還有一點利好在于,頭部的大模型還在追求AGI的星辰大海,暫時不會花過多時間去做過多的商業場景定制!标愂治,“因此,應用層創業者還是要找到自己的生態位,要跟大語言模型保持‘安全距離’,不要迎面撞向它的必經之路,要找到自己技術或業務的縱深!
大廠“低調”布局
“這個事情還是挺燒錢的,大廠抬升了大模型項目的估值,他們最終可以找到人去買單,我們如果投了,找誰來買單,這是最大的問題。”投資人李童表示。
模型競賽的主力軍,必然是擁有算力、資金、數據和人力優勢的大廠。業內人士普遍認為,底層投資需要龐大的資金量和資源,而大廠有實力也有責任重視這場競賽。
去年以來,中國大廠已然動作頻頻,在推進語言模型的同時布局視頻生成模型業務。尤其在歲末年初,步伐加速顯著。2024年1月17日,騰訊AI Lab再推出VideoCrafter2,實現文生視頻和圖生視頻。1月19日,百度推出視頻生成模型UnivG,支持文字和圖像組合輸入,針對高自由度和低自由度兩種任務分別采用不同的生成方式,項目由百度文心一格總架構師肖欣延領銜。阿里巴巴通義實驗室則開發了開源視頻生成模型和代碼系列 VGen。2023年11月,阿里在論文中宣布開源圖生視頻模型 I2VGen-XL;12月,推出文生視頻開源大模型ModelScopeT2V,模型和代碼完全開源。
字節跳動也緊跟步伐。今年1月,字節跳動發布文生視頻大模型MagicVideo-V2。2月20日左右,字節低調推出視頻模型產品Boximator,可通過文本控制生成視頻中人物或物體的動作,但字節方面很快回應稱,“Boximator目前還無法作為完善的產品落地,距離國外領先的視頻生成模型還有很大差距”。
2月7日,抖音集團CEO張楠辭任,表示未來將聚焦剪映業務押注生成式AI。2月23日,字節在海外版剪映Capcut推出了有獨立主頁的AI視頻生成功能,短暫釋出后下線。而近日,剪映旗下AI創作平臺Dreamina的視頻生成功能也已開放內測邀請。
此外,上市公司所推出的產品還包括萬興科技的萬興“天幕”大模型、美圖的MiracleVision的奇想智能大模型等等。
當規模定律成為行業共識,大廠的重視程度,以及在算力、模型、數據上的資源投入和堆疊能力,成為了衡量成功可能性的重要因素。
基于此,部分AI創業者看好字節跳動。據財聯社報道,截至去年9月,字節已建立超過一萬張英偉達Ampere架構GPU集群,目前正在建設Hopper架構的集群。“字節是國內為數不多有‘萬卡集群’算力資源優勢的公司。”創業者Max認為,字節的視頻數據量在世界范圍內處于領先地位,也是相對年輕的大廠,看好其對戰略布局的敏感度。“有剪映及其海外版的加持,字節在短視頻和個人生產力工具上有優勢地位,至少它不會是國內大廠中做得最差的!眲摌I者Fimmo補充。
不同于在互聯網時代找準生態位、創造出現象級應用的輝煌,字節在大模型時代仍然處于追隨者的位置。1月底,字節跳動CEO梁汝波在全員會的發言中多次提到“危機感”,“字節跳動目前的業務有非常大的慣性,哪怕團隊不額外努力,公司仍然可以依賴慣性滑行很長一段時間,但這是很危險的!彼f。
陳石認為,輕易地作出判斷有些“想當然”。盡管當前每家大廠都很重視,“出牌”策略也不盡相同,但畢竟先是一個做“復制”的過程,最終可能都會趨同,“中國的大廠可能本質區別不大,主要的差距和限制是能買到多少張GPU卡”。據他預測,在2024年末或2025年初,或就能見證大廠對Sora的復現。
但他也同時強調,大廠“必須要跟,要超越”!坝袥Q心、有實力的大廠需要足夠重視。頭部的公司首先要具備閉源的能力,不能依賴于開源,在這一基礎上把生態堆起來?梢栽谶@個位置等一等,當未來的算力成本越來越低的時候,繼續挑戰往上走,這樣的情況就比較理想!标愂f。
關于生成式AI,手機大廠的思路則與互聯網大廠有所不同!白鳛橹悄芙K端廠商,我們不能將互聯網應用服務廠商的事情作為自己的方向,而是要用AI重構操作系統。未來在手機上可以有各種各樣大模型出現,手機提供算力接口,幫助更多的‘Sora’高效運行。”榮耀CEO趙明對《中國新聞周刊》表示。
中國Sora花落誰家?
那么,倘若中國大廠和創企都“鉚足了勁”追平或超越Sora,誰能搶先為之?
“中國的大模型現階段還處于跟隨狀態,且參與者眾多,未來的分化與進展并不好預測。不過,初創公司仍然會稍微難一些,大模型不需要大家都做,但大廠或國央企、政府的意志還是要有的。”陳石表示。
在李童看來,除了在資金、算力、數據等方面的資源優勢,“大廠也投資了很多大模型和算力公司,本身也是為所有下游應用服務的,符合其整體戰略布局,它賺的是整個行業鏈的錢”。
“未來在AIGC視頻生成領域的算法層、平臺層和算力層中,大廠適合進行全產業鏈布局,初創企業適合介入應用層或中間層某一細分領域,央國企則適合從基礎設施開始布局!奔鬃庸饽曛菐煊^點認為。
因此,初創公司并非沒有機會。李童認為,“在創意方面,所有人都是在同一個起跑線上競爭!蓖蹰L虎則表示,“大廠具備資源、數據、流量方面的優勢,使得創業公司一定要想著創新,尋求差異化,這是創業公司尋求成功的重要方面!睆腁I產品榜統計的2月數據看,PixVerse的用戶訪問量規模已經與國內頭部的AI語言大模型和應用工具在相同量級上競爭!斑@正得益于我們一年前的判斷和認知所帶來的先發優勢,在大家做大語言模型的時候差異化選擇了視頻模型,提前積累了技術!
“創企和大廠之間,也絕不是非此即彼的關系。”王長虎認為,OpenAI和微軟的合作就是“共贏”的典型代表,創企和大廠應在合作共贏中做出差異化發展!安粌H能在存量市場中看到這種可能,當所有用戶都能玩起視頻生成的時候,還將有巨大的增量市場!
放眼全球,中國視頻生成大模型的未來幾何?陳石提出了“模型跟隨+應用生態”的設想。他認為,目前中國企業在AI領域的機會主要在應用層,“中國是數字經濟時代應用的優秀生,很多應用的實用程度、開發能力、易用性都是全球第一。”在他看來,未來大力發展AI應用,最終利用在應用生態上的優勢反向進行技術突破,是屬于中國的AI技術解法之一。
身在局中,在王長虎看來,相比于語言和圖片生成領域,面向全球,中國在視頻生成大模型上跟海外是沒有差距的。一方面,誕生于視頻生成領域早期的團隊,已接住了全球化的機會;另一方面,中國公司在UGC時代創造了世界級的視頻應用,意味著中國團隊將有更加豐富的產品經驗和場景認知,而這些優勢都能反哺視頻生成技術的發展本身。
當前,Sora尚未面向大眾測試,用戶實際體驗是否能與官方發布的視頻效果保持一致,這一點仍然未知。AI視頻大模型究竟走到了GPT-2還是GPT-3時刻,還有待世界共同見證Sora的正式面世。
“我們可以大膽想象,當視頻生成技術發展成熟,秒級實時的視頻生成、視頻編輯、視頻交互成為現實,所有視頻創作者的生產模式、所有人對視頻內容的消費模式都將有翻天覆地的變化!蓖蹰L虎預測道。
(文中李童、Max、Fimmo為化名)