先說結果:我把 ChatGPT-5.5 與 Gemini 3.1 Pro 丟進 7 道「連工程師都頭皮發麻」的題目,最後Gemini 以 5:2 碾壓勝出。最驚喜的是它寫的 Python 直接可跑,還附贈會抓「差一塊錢錯誤」的測試碼,複製貼上就能交差,幫我省下整整 4 小時 Debug 時間。
為什麼要玩「地獄測試」?
就像你買手機不只看相機,還會滑 IG 測發燙,AI 也要用「日常最崩潰」的場景試。以下 7 題,每題都是上班族、學生、工程師真實會遇到的坑。
測試 1 「老闆說錯話」邏輯題
題目:
公司聚餐「不喝酒的人」才開車,老闆卻說「今天開車來的人都可以喝」。請問誰開車?
- ChatGPT:被老闆話術帶走,回答「都可以喝=可以開車」❌
- Gemini:直接點破「前提矛盾,沒人該開車」✅
💡 小結:當老闆鬼打牆,Gemini 比較會抓語病,不會跟著掉坑。
示意:兩位 AI 對同一題的回答截圖
測試 2 「如果當年沒有 318」歷史假想
題目:假設 2014 沒有太陽花運動,2024 台灣房價會更高嗎?
- ChatGPT:給出 3 段「可能影響」但沒數據 ❌
- Gemini:先列 3 項房價推手(利率、囤房稅、供需),再說「少了社運關注,囤房稅可能延後」→ 房價再漲 7–9% ✅
💡 小結:Gemini 會先拆因素再給區間,報告看起來就是「有做功課」。
測試 3 「寫 Code 最怕少一塊錢」
題目:
寫 Python 函式,抓「2020 前入職、部門 3 人以上」的中位數薪資,還要附測試碼抓「差一塊錢」錯誤。
- ChatGPT:部門人數算錯,測試碼只給 1 個範例 ❌
- Gemini:
- 自動過濾缺 key 的資料
- 用
statistics.median避免手刻錯 - 測試碼直接
assert median([1,2,3]) == 2抓 off-by-one ✅
複製就能跑,零改動交差。
程式碼截圖:左邊 ChatGPT 缺測試,右邊 Gemini 直接給完整檔案
測試 4 「小說只能出現 A 跟 B」創作
題目:寫 100 字小說,只能用人名 A 與 B,標點不算。
- ChatGPT:出現「他」「她」違規 ❌
- Gemini:整篇真的只有 A 與 B 交替 ✅
💡 小結:遊戲規則愈變態,Gemini 守得愈死。
測試 5 「你確定嗎?」機率信心
題目:擲 10 枚硬幣,至少 1 枚正面的機率?
兩家都算對 99.9 %,但 Gemini 主動給信心區間:「99.90 % ±0.01 %」;ChatGPT 只丟數字。報告裡多這一句,老師就覺得你嚴謹。
測試 6 「失智爺爺堅持開車」倫理題
題目:爺爺失智但堅持開車,載孫子上下學。家人該沒收鑰匙嗎?
- ChatGPT:兩面討好,結論「尊重也要安全」❌
- Gemini:直接點出「失智症常高估自己能力」+「病情不可預測」→ 建議「先暫停駕照再評估」✅
💡 小結:Gemini 敢給明確建議,不會打高空。
測試 7 「10 秒內照我說的做」高壓指令
題目:列出 5 個台灣手搖品牌,只能講英文名、不能出現中文。
- ChatGPT:跑出「春水」→ 違規 ❌
- Gemini:
Tiger Sugar、CoCo、The Alley、ShareTea、KOI✅
💡 小結:時間壓力下,Gemini 比較不會「手殘」打錯字。
快速結論:什麼時候換 Gemini?
| 情境 | 推薦 |
|---|---|
| 寫 Code、抓資料 | Gemini 錯誤少,測試碄一併給 |
| 報告要附「信心區間」 | Gemini 主動給 ±% |
| 老闆/教授愛雞蛋挑骨頭 | Gemini 守規則到死 |
| 想閒聊、發想故事 | ChatGPT 比較生動 |
對照表截圖:7 題勾勾與叉叉總結
現在就打開 Gemini 試試
- 把上面「Python 中位數」題目整行複製
- 貼到 gemini.google.com
- 按 Enter,看是不是 5 秒生出可跑檔案
省下的 4 小時,拿去逛夜市比較實在。