阿里萬相視頻生成開源大模型是阿里云于2025年2月25日晚間宣布開源的視覺生成基座模型萬相2.1(Wan),以下是其具體介紹:
開源信息及平臺(tái)
- 開源時(shí)間:2025年2月25日晚間。
- 開源協(xié)議:采用最寬松的Apache 2.0協(xié)議。
- 下載平臺(tái):全球開發(fā)者可在Github、HuggingFace和魔搭社區(qū)下載體驗(yàn)。
模型參數(shù)規(guī)格
- 14B版本:在指令遵循、復(fù)雜運(yùn)動(dòng)生成、物理建模、文字視頻生成等方面表現(xiàn)突出,在權(quán)威評(píng)測(cè)集Vbench中,以總分86.22%的成績(jī)超越Sora、Luma、Pika等國內(nèi)外模型,位居榜首。
- 1.3B版本:測(cè)試結(jié)果不僅超過了更大尺寸的開源模型,甚至還接近部分閉源模型,能在消費(fèi)級(jí)顯卡運(yùn)行,僅需8.2GB顯存就可以生成480P視頻,適用于二次模型開發(fā)和學(xué)術(shù)研究。
技術(shù)架構(gòu)與優(yōu)勢(shì)
- 算法設(shè)計(jì):基于主流DiT架構(gòu)和線性噪聲軌跡Flow Matching范式,研發(fā)了高效的因果3D VAE、可擴(kuò)展的預(yù)訓(xùn)練策略等。以3D VAE為例,為了高效支持任意長度視頻的編碼和解碼,萬相在3D VAE的因果卷積模塊中實(shí)現(xiàn)了特征緩存機(jī)制,從而代替直接對(duì)長視頻端到端的編解碼過程,實(shí)現(xiàn)了無限長1080P視頻的高效編解碼。此外,通過將空間降采樣壓縮提前,在不損失性能的情況下進(jìn)一步減少了29%的推理時(shí)內(nèi)存占用。
- 性能表現(xiàn):在運(yùn)動(dòng)質(zhì)量、視覺質(zhì)量、風(fēng)格和多目標(biāo)等14個(gè)主要維度和26個(gè)子維度測(cè)試中,萬相均達(dá)到了業(yè)界領(lǐng)先表現(xiàn),并且斬獲5項(xiàng)第一。
- 功能特點(diǎn):支持基于文本生成視頻和圖像生成視頻任務(wù),能夠精準(zhǔn)模擬現(xiàn)實(shí)世界的物理規(guī)律,如雨滴濺起水花、冰刀劃開冰渣等,且在處理復(fù)雜運(yùn)動(dòng)時(shí)能保持肢體的協(xié)調(diào)性和運(yùn)動(dòng)軌跡的真實(shí)性。
應(yīng)用場(chǎng)景
- 影視創(chuàng)作:可以生成影視級(jí)高清視頻,輕松生成超酷炫的電影級(jí)片頭,降低影視特效制作成本。
- 廣告設(shè)計(jì):提高廣告創(chuàng)意效率,實(shí)現(xiàn)一鍵生成動(dòng)態(tài)字幕、智能運(yùn)鏡等功能。
- 電商直播:降低商品展示視頻制作成本,支持中英文混合特效,提升營銷效果。
源地址:
- Github:https://github.com/Wan-Video
- HuggingFace:https://huggingface.co/Wan-AI
- 魔搭社區(qū):https://modelscope.cn/organization/Wan-AI
