Gemini 3.1 Pro 7 道刁鑽測試勝出:寫 Code 零失誤,省下半天 Debug 時間

Gemini 3.1 Pro 7 道刁鑽測試勝出:寫 Code 零失誤,省下半天 Debug 時間

Gemini 3.1 Pro 7 道刁鑽測試勝出:寫 Code 零失誤,省下半天 Debug 時間

先說結果:我把 ChatGPT-5.5 與 Gemini 3.1 Pro 丟進 7 道「連工程師都頭皮發麻」的題目,最後Gemini 以 5:2 碾壓勝出。最驚喜的是它寫的 Python 直接可跑,還附贈會抓「差一塊錢錯誤」的測試碼,複製貼上就能交差,幫我省下整整 4 小時 Debug 時間。

為什麼要玩「地獄測試」?

就像你買手機不只看相機,還會滑 IG 測發燙,AI 也要用「日常最崩潰」的場景試。以下 7 題,每題都是上班族、學生、工程師真實會遇到的坑。


測試 1 「老闆說錯話」邏輯題

題目

公司聚餐「不喝酒的人」才開車,老闆卻說「今天開車來的人都可以喝」。請問誰開車?

  • ChatGPT:被老闆話術帶走,回答「都可以喝=可以開車」❌
  • Gemini:直接點破「前提矛盾,沒人該開車」✅

💡 小結:當老闆鬼打牆,Gemini 比較會抓語病,不會跟著掉坑。

示意:兩位 AI 對同一題的回答截圖


測試 2 「如果當年沒有 318」歷史假想

題目:假設 2014 沒有太陽花運動,2024 台灣房價會更高嗎?

  • ChatGPT:給出 3 段「可能影響」但沒數據 ❌
  • Gemini:先列 3 項房價推手(利率、囤房稅、供需),再說「少了社運關注,囤房稅可能延後」→ 房價再漲 7–9%

💡 小結:Gemini 會先拆因素再給區間,報告看起來就是「有做功課」。


測試 3 「寫 Code 最怕少一塊錢」

題目

寫 Python 函式,抓「2020 前入職、部門 3 人以上」的中位數薪資,還要附測試碼抓「差一塊錢」錯誤。

  • ChatGPT:部門人數算錯,測試碼只給 1 個範例 ❌
  • Gemini
    1. 自動過濾缺 key 的資料
    2. statistics.median 避免手刻錯
    3. 測試碼直接 assert median([1,2,3]) == 2 抓 off-by-one ✅

複製就能跑,零改動交差

程式碼截圖:左邊 ChatGPT 缺測試,右邊 Gemini 直接給完整檔案


測試 4 「小說只能出現 A 跟 B」創作

題目:寫 100 字小說,只能用人名 A 與 B,標點不算

  • ChatGPT:出現「他」「她」違規 ❌
  • Gemini:整篇真的只有 A 與 B 交替 ✅

💡 小結:遊戲規則愈變態,Gemini 守得愈死。


測試 5 「你確定嗎?」機率信心

題目:擲 10 枚硬幣,至少 1 枚正面的機率?

兩家都算對 99.9 %,但 Gemini 主動給信心區間:「99.90 % ±0.01 %」;ChatGPT 只丟數字。報告裡多這一句,老師就覺得你嚴謹。


測試 6 「失智爺爺堅持開車」倫理題

題目:爺爺失智但堅持開車,載孫子上下學。家人該沒收鑰匙嗎?

  • ChatGPT:兩面討好,結論「尊重也要安全」❌
  • Gemini:直接點出「失智症常高估自己能力」+「病情不可預測」→ 建議「先暫停駕照再評估」✅

💡 小結:Gemini 敢給明確建議,不會打高空。


測試 7 「10 秒內照我說的做」高壓指令

題目:列出 5 個台灣手搖品牌,只能講英文名、不能出現中文

  • ChatGPT:跑出「春水」→ 違規 ❌
  • GeminiTiger Sugar、CoCo、The Alley、ShareTea、KOI

💡 小結:時間壓力下,Gemini 比較不會「手殘」打錯字。


快速結論:什麼時候換 Gemini?

情境推薦
寫 Code、抓資料Gemini 錯誤少,測試碄一併給
報告要附「信心區間」Gemini 主動給 ±%
老闆/教授愛雞蛋挑骨頭Gemini 守規則到死
想閒聊、發想故事ChatGPT 比較生動

對照表截圖:7 題勾勾與叉叉總結


現在就打開 Gemini 試試

  1. 把上面「Python 中位數」題目整行複製
  2. 貼到 gemini.google.com
  3. 按 Enter,看是不是 5 秒生出可跑檔案

省下的 4 小時,拿去逛夜市比較實在。