AI 讀心術：UCSF 把大腦訊號變 80 字/分鐘語音，癱瘓患者用數位分身開口說話

AI 讀心術：UCSF 把大腦訊號變 80 字/分鐘語音，癱瘓患者用數位分身開口說話

2026年4月11日 · 4 分鐘閱讀

18 年沒說話，她今天用「數位分身」點名

47 歲的台美裔女士 Ann，18 年前因腦幹中風只剩眼球能動。上個月她在 UCSF 實驗室透過螢幕裡的 3D 頭像，對研究員說出「我很好，謝謝」——聲音不是預錄，而是大腦即時生成的語音與表情，刷新全球腦機介面紀錄：

每分鐘 80 個字，比過去眼控拼字快 16 倍
延遲不到 700 毫秒，接近真人對話節奏
臉部微表情同步，眨眼、抿嘴都能呈現

就像把大腦 Wi-Fi 直接投影到喇叭

傳統做法是「眼球寫字→電腦朗讀」，步驟多又累。UCSF 團隊改用「語音腦機介面」，概念很像把大腦的說話運動指令直接轉成聲音：

把電極陣列插在控制嘴唇、舌頭、喉嚨的運動皮質（想像成 253 個感應器排成一片雞皮）
當 Ann「默念」時，電極讀到神經訊號 → 傳到電腦
AI 模型（Transformer 架構，跟 ChatGPT 同門）把訊號翻成語音聲碼器能懂的參數
聲碼器立刻輸出聲音，同時驅動 3D 頭像的臉部肌肉

整個過程就像你用想的點外送，系統自動幫你講完訂單。

三步驟做出「會說話的頭像」

研究團隊公開核心流程，非營利版本已在 GitHub 釋出，任何實驗室都能複製：

1. 收集大腦數據

開顱植入高密度 ECoG 電極（253 通道）
請受測者「想像」說 1,024 句常用中文、英文句子
同步錄下聲音與臉部光學捕捉，建立大腦→語音→表情配對資料庫

2. 鍊練 AI 翻譯官

輸入：神經訊號（50 ms 滑窗）
輸出：語音特徵（音高、嘴型、舌位）+ 臉部 Blendshape 係數
模型：Transformer Encoder-Decoder，8 層、12 頭、37 M 參數，在 4 張 A100 上訓練 36 小時
損失函數同時優化「語音失真」與「唇形同步」，確保聲音對得上嘴

3. 上線即時推理

訊號延遲 < 50 ms，用邊緣 GPU（NVIDIA Jetson Orin）就能跑
語音合成採用神經聲碼器 HiFi-GAN，音質接近 48 kHz 廣播級
頭像用Unreal Engine MetaHuman，眨眼、皺眉 60 FPS 更新

台灣患者最快 2026 年可用

這套系統仍屬臨床試驗，但 UCSF 已與台大醫院、台北榮總簽署合作，預計 2025 年啟動亞洲首例跨國試驗。若順利，2026 年有機會在台灣取得醫材許可，屆時將開放「完全失語」患者申請植入。

誰可能符合？

腦幹中風、ALS、脊髓損傷導致無法發聲者
意識清楚、能理解指令
願意接受開顱植入手術（健保暫不給付，自費約 120 萬台幣）

未來不只是「開口」，還能「唱歌」

團隊下一步把情緒維度加進去，讓聲音有快樂、生氣、撒嬌等語氣；甚至挑戰即時唱歌，讓癱瘓歌手在跨年晚會用數位分身飆高音。

小結：AI 讀心，不再是科幻

速度：每分鐘 80 字，貼近自然對話
延遲：700 ms，比眨眼還快
表情：3D 頭像同步，連皺鼻都不放過
台灣時程：2025 試驗、2026 申請醫材

如果你身邊有人因疾病說不出話，現在就把這篇轉給他——也許兩年後，他就能用「想的」繼續跟世界聊天。

試試看吧，把大腦 Wi-Fi 打開，聲音就回來了。