一個讓 AI「打架」的網站,怎麼變成 3 億台幣生意?
你一定有看過那種「兩個 AI 同時回答,你選哪個比較好」的截圖對吧?那就是 Arena,現在已經是 AI 產業最重要的成績單——而且超會賺錢。
這個 2023 年從加州大學柏克萊分校(UC Berkeley)畢業專題起家的網站,上線商業服務才 8 個月,年營收已經衝到 1 億美元(約 3 億台幣)。
為什麼大家都看 Arena 的排名?
想像一下:學測考完之後,不是只有大考中心說「這題答案選 B」,而是有 1000 萬個考生 實際寫過、比較過,告訴你「這家補習班的解題真的比較清楚」。
Arena 做的就是這件事:
| 傳統評測 | Arena 的做法 |
|---|---|
| 實驗室跑分數據 | 真人實測 兩個模型的回答 |
| 看誰數學算得對 | 看誰寫得 更像人、更有用 |
| 專家說了算 | 你說了算( crowdsourced ) |
到目前為止已經累積 超過 1000 萬筆真人評價,這個數據量讓 Arena 的排行榜比任何學術論文都更有參考價值。
不做 AI 模型,只做「裁判」更賺
這裡有個反直覺的事實:Arena 自己不做 GPT、不做 Claude,它只評分。
但這個「裁判」角色讓他們抓到三個賺錢機會:
1. 企業付錢「驗收」自己的模型
AI 公司訓練完新模型,需要證明「我們比 OpenAI 強」。Arena 提供 私有評測服務,讓企業在公開發表前先看排名。
2. API 賣數據
那 1000 萬筆評價不是放著好看——其他公司可以付費接取 Arena 的 API,用來 訓練自己的模型 或 調整產品方向。
3. 成為產業標準
當所有人都在引用 Arena 的排名,這個品牌本身就是護城河。就像台灣人買手機會看 DxOMark 相機評分、挑筆電會看 Mobile01 討論,Arena 已經變成 AI 模型的「必過認證」。
對台灣人有什麼影響?
你可能會想:這跟我有什麼關係?
其實關係很大:
- 你用 ChatGPT、Claude、Gemini 的選擇,背後參考的評測標準很可能來自 Arena
- 台灣的 AI 新創 如果要進軍國際,Arena 排名是必經之路
- 學校或企業採購 AI 工具 時,Arena 的數據會變成採購依據
簡單說:這個柏克萊學生做的網站,正在 定義什麼叫「好的 AI」。
一個 Side Project 的啟示
Arena 的起點很單純:幾個研究生想做個工具,讓大家比較開源模型跟 GPT-4 誰厲害。
兩年後:
- 從 學術專案 → 新創公司
- 從 免費網站 → 3 億台幣年收
- 從 柏克萊實驗室 → AI 產業的標準制定者
這個故事給台灣的啟示是:不一定要做最強的技術,找到「大家需要但沒人做」的位置,可能更有價值。
就像我們熟悉的 104 人力銀行 不做求職者培訓、591 房屋網 不蓋房子——但他們掌握了資訊的流動,就掌握了商業機會。
現在你可以做什麼
下次看到「GPT-4.5 擊敗 Claude 3.5」的新聞,記得去看看 Arena 的原始數據——那些分數背後是千萬個真人實測,不是廠商自己說了算。
如果你在做 AI 相關產品,也可以想想:你的產業裡,有沒有還沒人做的「裁判」角色?
試試看吧:打開 arena.ai,親自當一次 AI 評審,你就知道為什麼這個網站值 3 億了。