為什麼你不需要讀那篇英文論文,也能懂 AI?
如果你在網路上搜尋 AI 怎麼運作,一定會看到一篇叫《Attention Is All You Need》的論文。這篇論文就像是 AI 界的「聖經」,直接創造了現在的 ChatGPT、Claude 這些強大工具。但老實說,除非你是資工系博士,否則打開那篇論文看到滿滿的數學公式,大概 3 秒鐘就會想關掉視窗。
其實,這篇論文想告訴我們的核心概念非常簡單。你可以把它想成是 AI 從「死板的翻譯機」進化成「有靈魂的理解者」的轉捩點。
以前的 AI 是怎麼「讀書」的?(而且很慢)
在 Transformer 出現之前,AI 處理文字的方式叫做 RNN(遞迴神經網路)。你可以把它想像成一個超級死板的排隊系統。
假設你要 AI 翻譯「我今天去台北 101 看風景」這句話:
- AI 會先讀「我」 $\rightarrow$ 記在腦子裡 $\rightarrow$ 再讀「今天」 $\rightarrow$ 再讀「去」…
- 問題來了:當它讀到最後一個字「風景」時,可能已經忘了最前面那個「我」是誰。
這種方式有兩個大問題:
- 記憶力很差:句子太長,AI 就會失憶(這就是為什麼早期的 Google 翻譯常出錯)。
- 速度太慢:必須一個字一個字排隊處理,沒辦法同時進行。
Transformer 的絕招:Attention(注意力機制)
這篇論文提出了一個革命性的想法:為什麼要排隊?我們直接「全看」就好!
這就是所謂的 Attention(注意力機制)。你可以把它想像成 AI 在讀句子時,眼睛會自動幫每個字「打分數」。
舉個生活化的例子
想像你在讀這句話:「小明去便利商店買了一瓶水,它很冰。」
當 AI 讀到「它」這個字時,Attention 機制會立刻運作:
- 「它」 $\rightarrow$ 小明?(分數:10%)
- 「它」 $\rightarrow$ 便利商店?(分數:20%)
- 「它」 $\rightarrow$ 水?(分數:70%)
AI 會發現「它」跟「水」的關聯度最高,所以它立刻知道「冰」的是水,而不是小明或商店。它不需要從頭讀到尾,而是直接在整句話中「抓重點」。
為什麼這個技術讓 AI 突然爆發?
因為 Transformer 改變了運算方式,帶來了三個具體的好處:
- 平行處理(Parallelism):不再需要排隊,AI 可以一次處理整篇文章。這就像原本是一個店員在點餐,現在變成 100 個店員同時幫你點餐,速度快到飛起。
- 長距離記憶:無論句子多長,AI 都能直接把開頭和結尾的關聯抓出來,不會再讀到後面忘掉前面。
- 規模化(Scaling):因為速度快,科學家發現只要餵給它更多數據(例如整個維基百科、所有 GitHub 程式碼),AI 就會變得越來越聰明。
3 步驟把這個概念應用在你的 Prompt 中
既然知道 AI 是靠「抓重點(Attention)」來運作的,你可以在跟 ChatGPT 或 Claude 對話時,用以下方法讓它更準:
- 步驟 1:給予明確的標記
不要只寫一大坨文字。用
### 任務或【背景資料】這種標記,幫 AI 建立「注意力路徑」。 - 步驟 2:強調關鍵字 在指令中明確告訴它:「請特別關注 [某個數據]」,這等於是強迫 AI 把該部分的 Attention 分數調高。
- 步驟 3:提供對比範例 給它一個「錯誤範例」和「正確範例」,讓 AI 學習在哪些字眼上應該投入更多注意力。
總結:AI 的進化就是「學會抓重點」
從這篇論文開始,AI 不再是單純的機對機翻譯,而是能理解上下文、能寫詩、能寫程式的通用工具。下次當你覺得 ChatGPT 回答得很精準時,記得背後其實是數以億計的「注意力分數」在運作。
現在就打開 ChatGPT,試著用標記方式重新寫一次你的 Prompt 看看吧!