NVIDIA 新玩具 SANA-WM:60 秒影片 34 秒搞定
剛剛 NVIDIA 研究團隊丟出一顆震撼彈:開源模型 SANA-WM 現在能直接生出 1 分鐘、720p 的影片,而且還能讓鏡頭像空拍機一樣想飛哪就飛哪。
為什麼這件事很狂?
過去 AI 影片頂多給你 4~8 秒,還常常人物走著走著就變形。SANA-WM 直接把長度拉到 60 秒,重點是:
- 畫面不會崩壞:人物、場景、光影全程保持一致
- 鏡頭隨你控制:前後左右上下 + 旋轉,6 個自由度都能指定
- 只要 1 張 RTX 5090:34 秒就能跑完,不用租超級電腦
實測數據給你看
| 設備 | 原始模型 | 蒸餾版 | 再加優化 |
|---|---|---|---|
| H100 | 21.8 分 | 48 秒 | 34 秒 |
| RTX 5090 | OOM* | 48 秒 | 42 秒 |
*OOM = GPU 記憶體爆炸,直接當機
3 步驟生出你的第一段 AI 影片
步驟 1:準備 Prompt
就像跟 Uber 司機報路一樣,越清楚越好:
場景:台北信義區夜晚,人群在廣場上倒數
鏡頭:從地面 1 公尺開始,10 秒內升到 30 樓高,再環繞 101 一圈
風格:電影感、藍紫色調、輕微手持晃動
步驟 2:設定鏡頭軌跡
SANA-WM 吃 6 個參數:
- X / Y / Z 位移:鏡頭前後左右上下
- Pitch / Yaw / Roll:抬頭低頭、左右轉、傾斜
你可以用簡單的 JSON 格式餵給它:
{
"camera_path": [
{"t":0, "x":0, "y":1, "z":0, "pitch":0, "yaw":0, "roll":0},
{"t":10, "x":0, "y":30, "z":0, "pitch":-15, "yaw":0, "roll":0},
{"t":60, "x":0, "y":30, "z":0, "pitch":-15, "yaw":360, "roll":0}
]
}
步驟 3:按下 Enter 等收工
- 硬體需求:單張 RTX 5090 就能跑
- 時間成本:34~48 秒(看你用哪個版本)
- 檔案大小:720p/60 秒約 120 MB
台灣創作者可以怎麼玩?
YouTube 開場動畫
不用再花 3 小時拍攝 + 剪輯,直接打一段 Prompt:
「鏡頭從台北橋下衝出,沿著淡水河飛向夕陽,最後停在 YouTube 頻道 Logo」
房地產 VR 導覽
建商可以用它快速生出「從大廳走進 30 樓豪宅」的影片,客戶戴 VR 眼鏡就能看房。
學校專題報告
大學生做畢業專題,直接生一段「從外太空掉進台灣」的開場,教授第一眼就記住你。
背後黑科技:為什麼不會當機?
SANA-WM 用了兩招省記憶體:
1 混合線性注意力 就像你整理衣櫃:常用衣服放前面,不常用的塞後面。AI 只把「現在需要的畫面細節」留在記憶體,其他先存硬碟。
雙軌道鏡頭控制 一條管大方向(從 A 點飛到 B 點),一條管小抖動(手持感)。兩條分開算,畫面才不會飄。
現在就能玩
NVIDIA 已經把 SANA-WM 開源放上 GitHub,連模型權重都給你載。只要:
- 打開 GitHub 頁面
- 下載 26 億參數模型(約 10 GB)
- 照著 README 跑一行指令
家裡沒 RTX 5090?Google Colab 也有現成 Notebook,免費 GPU 就能試玩 15 秒版本。
**試試看吧!**現在就打開 SANA-WM,下一支爆紅影片可能就是你做的。