已投企業 | 兔展智能發布“Open-Sora”計劃
發布日期:
2024-03-18

今年初,由OpenAI發布的文生視頻大模型Sora震驚了世界。僅需輸入文字指令,便可生成長達一分鐘高清分辨率、畫面精致的動態視頻。Sora優異的性能表現讓許多人感嘆。但同時,關于國內人工智能技術發展狀況也不可避免地被提及國內能否研發出中文版的Sora?

已投企業 | 兔展智能發布“Open-Sora”計劃

▲Sora生成視頻截圖。圖片來源:OpenAI官網

3月12日,南山轄區的北京大學深圳研究生院-兔展智能AIGC聯合實驗室正式發布了“Open-Sora”計劃旨在復現一個“開源版Sora”。該項目由2014年成立的南山企業深圳兔展智能創始人、CEO董少靈與北京大學信息工程學院助理教授、博士生導師袁粒領銜發起,期望通過產業公司和科研機構的強強聯手,以開源的方式對外傳播中國團隊的技術自信,號召全球社區一起做人類普惠的技術內容。

已投企業 | 兔展智能發布“Open-Sora”計劃已投企業 | 兔展智能發布“Open-Sora”計劃

復現“開源版Sora”全球用戶都可用

不久前,馬斯克對OpenAI提起了訴訟,指控OpenAI背離了創立初衷,從一個開源的非營利組織轉變為閉源、追求商業利益的機構。截至目前,發布近一個月的Sora還尚未面向全部公眾開放,在其官方網站上也只有一份非常簡短的技術報告,并未涉及模型背后的原理——在董少靈看來,“OpenAI”正逐漸變成“CloseAI”。

“與之恰恰相反,我們Open-Sora Plan中的數據是完全開源的,全世界范圍內的用戶都可以直接拿去用,甚至利用它們來盈利。”作為技術模塊的主要負責人,袁粒在發布現場向記者表示。據袁粒介紹,Open-Sora計劃的核心技術框架包括視頻編碼器與解碼器、Diffusion Transformer模型和條件注入模型三大模塊,目前基于已經搭好的訓練框架,能夠支持動態輸入、多尺度、多分辨率的訓練,對于可變比例、可變時長的視頻已經取得了較好的生成效果。

已投企業 | 兔展智能發布“Open-Sora”計劃

與“財大氣粗”的OpenAI相比,該團隊在條件和算力存在一定缺口的情況下選擇了更高效、低功耗的大模型訓練方式,例如用“2D+1D Diffusion Transformer”替代計算量更大的3D Diffusion Transformer,以及同步推進除了文本控制外的更多條件控制的視頻生成訓練。

該項目在GitHub上一經發布,就立馬引起國際人工智能界相當一部分的關注。發布一周內就有超5000名技術開發人員為該項目標星,融合了30余次開源創作者的拉取請求(Pull Request),獲得14萬余次訪問,代碼被克隆超800次,來自美國、英國、加拿大、德國、澳大利亞、迪拜、沙特阿拉伯、伊朗等多個國家的技術人員參與其中,積極貢獻。
在袁粒看來,“Open-Sora”作為一個開源的項目,其優勢在于能夠集結全世界技術人員的力量,讓大家在自己擅長的領域發揮專業優勢,同時也能夠獲得算力和數據方面的資源支持。目前,該計劃“初步驗證當前框架有效性”的第一階段目標已完成,第二階段團隊希望在有效框架基礎上訓練出能夠生成20秒以上720p清晰度視頻的模型,同時將“生成更加逼近Sora時長和效果的視頻”作為第三階段的拓展目標。
盡管目前由于較大的算力缺口和數據要求,能夠實現拓展目標的難度較大,但董少靈依然表示:“在技術方面中國并不比Sora弱,Sora能做的我們也能做,大家要樹立這樣的自信。”

不止步于娛樂視頻生產,AI技術應賦能產業

Open-Sora背后的底層模型,是兔展智能在去年推出的基于視覺為核心的原創多模態大模型“兔靈”,這是一個視覺占七成、語言占三成的全新混合體。同是作為視覺大模型,目前外界對Sora的想象止步于娛樂向視頻的生產,但兔展智能對于Open-Sora的展望卻遠不止于此,對董少靈來說,將Open-Sora背后的底層模型打造成深植于產業、賦能產業發展的中國本土的視覺大模型,讓產業的供給與用戶的需求更精準的匹配,才是更有價值的事情。

已投企業 | 兔展智能發布“Open-Sora”計劃

在董少靈的介紹里,“兔靈”是一個聚焦于設計領域的視覺大模型,能夠根植于工業設計、建筑設計、室內設計、服裝設計等多個設計類細分行業,在供給大于需求的時代讓客戶的個性化需求更加精準,同時節約設計成本、打通產業鏈,實現真正的“人工智能+”賦能行業。

發布會現場,董少靈對目前大模型已經落地的項目進行了展示。其中在建筑設計方面,“兔靈”能夠通過文本描述引導生成三維建筑模型,自由調整建筑視角,并結合AI局部重繪的能力補全設計效果圖,這樣一來實現方案設計及效果圖制作提效97%,成本節約達14.6%。

“我們想做的絕不是‘下一代的抖音’,而是希望能將AI真正應用到行業中,更加精準地匹配產業鏈中的供給與需求。”董少靈向記者表示。在他的展望中,隨著Open-Sora計劃的不斷發展,“兔靈”大模型也將不斷獲得訓練,未來,不具備設計專業技能的普通人也能夠設計出個性化的物品,隨之而來的則是建筑、服裝、材料等各個行業產能的提高與產業鏈的完善。

本次Open-Sora開源計劃堅持“人類級使命”“奮斗者為本”“開放式創新”“真問題驅動”四大原則,共同探索產學研協同創新發展的新路徑。未來,兔展智能與北京大學深圳研究生院將在推動視覺大模型更好賦能中國產業發展方面攜手并進,為世界帶來更多中國聲音。


來源?|??蛇口消息報?綜合深圳商報?讀特新聞 SNG大灣區

編輯?|?喻夢婷?責編?|?楊澤楠??審核 |?盧東勃?王婷婷

轉載 | 創新南山


相關推薦