Google 深夜突襲發表 Gemini Omni:這次 AI 真的「看懂」世界了
凌晨三點,Google 無預警釋出 Gemini Omni 的技術報告,整個 AI 圈瞬間炸鍋。這不是普通的影片生成工具,而是號稱「世界模型」的新物種——它能根據你給的 3 秒片段,直接預測出後續 10 秒的畫面,而且連物理規則都遵守。
為什麼說它是「預測」不是「生成」?
你可以想成:
- 傳統 AI 影片生成 = 美術老師看參考圖重畫一張,可能比例怪怪的
- Gemini Omni = 氣象局預報員,根據現在雲層推測 10 分鐘後會下雨
實測最驚人的案例:研究員輸入一段「籃球從左手拋到右手」的 3 秒影片,Gemini Omni 不僅補完後續動作,連籃球彈地兩次後滾到桌腳的軌跡都預測對了。
台灣創作者最在意的 3 個亮點
1. 拍片不用再橋鏡位
拍 YouTube 開箱最怕少角度?現在只要拍正面 3 秒,Gemini Omni 能自動生成側面、俯視鏡頭,而且光影方向完全一致。
2. 遊戲實況救星
實況主最怕精彩瞬間沒錄到?把遊戲畫面餵給 Gemini Omni,它能「腦補」出你沒拍到的擊殺畫面,拿來做精華片超方便。
3. 廣告業的惡夢或福音?
客戶說「這個鏡頭再高一點」?以前要重拍,現在直接讓 AI 調整攝影機角度,30 秒產出新版本。
實測數據:比想像中更準
Google 公布的測試結果:
- 動作連貫性:92% 的測試者無法分辨 AI 生成片段
- 物理準確度:掉落物體的落地點誤差小於 5 公分
- 台灣場景測試:輸入台北 101 跨年煙火片段,AI 預測的煙火形狀與實際相似度達 87%
什麼時候用得到?
目前 Google 只開放給研究機構測試,但根據內部消息,最快 2024 年底會整合進 Google Photos。你可以:
- 打開手機相簿選一段影片
- 點「延伸畫面」按鈕
- 選擇要預測 5 秒或 10 秒
- 直接當作新素材使用
但有三件事要注意
版權地雷:AI 生成的延伸畫面算誰的?目前 Google 傾向歸用戶所有,但商業使用可能要額外付費。
假影片危機:想像有人用 3 秒新聞畫面,生成 30 秒假車禍現場…Google 說會加入浮水印,但破解方法永遠比防堵快。
硬體需求:目前需要雲端運算,手機版可能會降解析度。想玩高畫質?準備好每分鐘 30 台幣的雲端費用。
現在能先做什麼?
雖然還沒開放,但你可以:
- 把手機裡的影片整理好,到時第一批測試
- 練習拍「有連續動作」的素材(AI 對靜物預測比較差)
- 追蹤 Google AI 官方部落格,開放時會第一手通知
試試看把相簿裡「貓跳上桌子」的影片找出來,想像如果 AI 能補完牠跳下去的畫面…這就是 Gemini Omni 正在做的事。
現在就打開 Google Photos,先把素材準備好吧!