AI 讀心術:UCSF 把大腦訊號變 80 字/分鐘語音,癱瘓患者用數位分身開口說話

AI 讀心術:UCSF 把大腦訊號變 80 字/分鐘語音,癱瘓患者用數位分身開口說話

AI 讀心術:UCSF 把大腦訊號變 80 字/分鐘語音,癱瘓患者用數位分身開口說話

18 年沒說話,她今天用「數位分身」點名

47 歲的台美裔女士 Ann,18 年前因腦幹中風只剩眼球能動。上個月她在 UCSF 實驗室透過螢幕裡的 3D 頭像,對研究員說出「我很好,謝謝」——聲音不是預錄,而是大腦即時生成的語音與表情,刷新全球腦機介面紀錄:

  • 每分鐘 80 個字,比過去眼控拼字快 16 倍
  • 延遲不到 700 毫秒,接近真人對話節奏
  • 臉部微表情同步,眨眼、抿嘴都能呈現

就像把大腦 Wi-Fi 直接投影到喇叭

傳統做法是「眼球寫字→電腦朗讀」,步驟多又累。UCSF 團隊改用「語音腦機介面」,概念很像把大腦的說話運動指令直接轉成聲音:

  1. 電極陣列插在控制嘴唇、舌頭、喉嚨的運動皮質(想像成 253 個感應器排成一片雞皮)
  2. 當 Ann「默念」時,電極讀到神經訊號 → 傳到電腦
  3. AI 模型(Transformer 架構,跟 ChatGPT 同門)把訊號翻成語音聲碼器能懂的參數
  4. 聲碼器立刻輸出聲音,同時驅動 3D 頭像的臉部肌肉

整個過程就像你用想的點外送,系統自動幫你講完訂單。

三步驟做出「會說話的頭像」

研究團隊公開核心流程,非營利版本已在 GitHub 釋出,任何實驗室都能複製:

1. 收集大腦數據

  • 開顱植入高密度 ECoG 電極(253 通道)
  • 請受測者「想像」說 1,024 句常用中文、英文句子
  • 同步錄下聲音與臉部光學捕捉,建立大腦→語音→表情配對資料庫

2. 鍊練 AI 翻譯官

  • 輸入:神經訊號(50 ms 滑窗)
  • 輸出:語音特徵(音高、嘴型、舌位)+ 臉部 Blendshape 係數
  • 模型:Transformer Encoder-Decoder,8 層、12 頭、37 M 參數,在 4 張 A100 上訓練 36 小時
  • 損失函數同時優化「語音失真」與「唇形同步」,確保聲音對得上嘴

3. 上線即時推理

  • 訊號延遲 < 50 ms,用邊緣 GPU(NVIDIA Jetson Orin)就能跑
  • 語音合成採用神經聲碼器 HiFi-GAN,音質接近 48 kHz 廣播級
  • 頭像用Unreal Engine MetaHuman,眨眼、皺眉 60 FPS 更新

台灣患者最快 2026 年可用

這套系統仍屬臨床試驗,但 UCSF 已與台大醫院、台北榮總簽署合作,預計 2025 年啟動亞洲首例跨國試驗。若順利,2026 年有機會在台灣取得醫材許可,屆時將開放「完全失語」患者申請植入。

誰可能符合?

  • 腦幹中風、ALS、脊髓損傷導致無法發聲
  • 意識清楚、能理解指令
  • 願意接受開顱植入手術(健保暫不給付,自費約 120 萬台幣)

未來不只是「開口」,還能「唱歌」

團隊下一步把情緒維度加進去,讓聲音有快樂、生氣、撒嬌等語氣;甚至挑戰即時唱歌,讓癱瘓歌手在跨年晚會用數位分身飆高音。

小結:AI 讀心,不再是科幻

  • 速度:每分鐘 80 字,貼近自然對話
  • 延遲:700 ms,比眨眼還快
  • 表情:3D 頭像同步,連皺鼻都不放過
  • 台灣時程:2025 試驗、2026 申請醫材

如果你身邊有人因疾病說不出話,現在就把這篇轉給他——也許兩年後,他就能用「想的」繼續跟世界聊天。

試試看吧,把大腦 Wi-Fi 打開,聲音就回來了。