報告閱讀:OpenRouter State of AI (2025)

Dec 10, 2025·
蔣濤
蔣濤
· 4

報告資訊

  • 標題:State of AI | OpenRouter (Empirical Study)
  • 發布機構:OpenRouter
  • 發布日期:2024 年 12 月 5 日(報告觀測週期跨越 2024-2025 年)
  • 原文連結State of AI | OpenRouter
  • 數據基礎:基於 OpenRouter 統一推理層 100 兆 (Trillion) tokens 的真實互動元數據,覆蓋全球 300+ 模型與 60+ 提供商。

報告關鍵深度洞察 (Abstract & Empirical Findings)

OpenRouter 的報告避開了傳統的主觀評測,轉而從大規模生產環境的「真實行為」出發,揭示了以下幾個維度的深度規律:

1. 代理化推論 (Agentic Inference) 的範式轉移

  • 推理模型的絕對統治:報告指出,自 2024 年底 o1 類模型發布起,AI 使用已從「內容生成」轉向「多步推理」。到 2025 年,超過 50% 的總 Token 流量流向了推理優化模型(以 xAI 的 Grok Code Fast 為首,緊隨其後的是 Gemini 2.5 系列與 DeepSeek R1)。
  • 工具調用 (Tool-Calling) 趨勢:數據顯示工具調用已不再是開發者的選配,而是高價值工作流的預設。Claude 3.5/3.7 系列在早期佔據主導,隨後 Grok 與 GLM 4.5 迅速切入,反映出**行動力(Act through planning)**才是未來模型的護城河。

2. 開源與閉源的動態平衡 (Market Equilibrium)

  • 30% 的「開源天花板」:儘管閉源模型仍佔據 70% 的市場份額(主攻受監管的企業級工作流),但開源/權重開放模型(OSS)已穩定在 30% 左右。
  • 中國開源模型的崛起:DeepSeek V3 與 Qwen 3 Coder 的發布直接帶動了使用量激增。特別是在代碼協助(Programming)領域,中國開源模型在 2025 年中期曾短暫佔據 OSS 代碼任務的半數以上。

3. 模型家族的使用畫像 (Provider Profiles)

報告揭示了用戶對不同模型品牌的「認知分工」:

  • Anthropic (Claude):極端專注於 編程與技術 (80% 以上)。用戶將 Claude 視為複雜推理與工程的首選。
  • Google (Gemini):表現最為多樣,涵蓋翻譯、科學、法律與通用知識,呈現出**「數位百科全書/信息引擎」**的特徵。
  • OpenAI (GPT):經歷了轉型,從早期的科學與通識轉向更深度的開發者工作流與生產力工具,其定位介於 Claude 的專業與 Google 的多元之間。
  • DeepSeek:呈現出驚人的消費者導向 (Consumer-heavy),超過 2/3 的流量來自創意、娛樂與角色扮演。

4. 留存分析:灰姑娘的「玻璃鞋現象」 (Glass Slipper Effect)

這是報告中最有趣的發現。研究觀察到:

  • Foundational Cohorts:早期用戶(如 Gemini 2.5 或 Claude 4 Sonnet 的首月用戶)在 5 個月後的留存率高達 40%,遠高於後續進入的用戶。
  • 首解優勢:當某個模型第一個解決了某個特定難題(如某種複雜的 Tool-use 或邏輯難關),該用戶群體就會產生極強的路徑依賴(Cognitive inertia)。這就是「玻璃鞋」效應:一旦適配,就會產生強大的鎖定效果。

5. 成本與需求彈性 (Jevons Paradox)

  • 價格無彈性:有趣的是,10% 的價格下降僅帶動 0.5-0.7% 的使用增長。這說明**「質量與信任」**遠比價格重要,頂級企業願意為穩定性支付溢價。
  • 傑文斯悖論 (Jevons Paradox):雖然宏觀上價格彈性低,但在「Efficient Giants」(如 Gemini Flash 或 DeepSeek)領域,低成本確實誘發了更大規模的 Token 消耗(用戶開始進行更多次的迭代與更長上下文的查詢)。

我的理解:數據背後的學術與實戰啟示

這份「實證型」報告將 AI 的討論從「好不好用」拉升到了「如何系統性部署」的高度。

1. 對個人研究領域(政治工作與助理行為)的啟示

  • 推理紅利與代理人化:報告中超過 50% 模型轉向推理,驗證了我的觀察——政治工作中的助理正在利用 AI 處理更具「判斷性」的任務。未來研究應從「助理是否使用 AI」轉向「助理如何透過 AI 的 Agentic 工作流進行輿情引導」。
  • 場景適配(玻璃鞋):對於政治助理而言,第一款能精準擬定其專屬語氣或分析選區敏感性的模型,將會創造極難被打破的忠誠度。這解釋了為什麼有些辦公室會一直停留在舊版 GPT 或特定模型中。

2. 對台灣及兩岸 AI 發展的啟示

  • 開源模型的出口優勢:DeepSeek 與 Qwen 在 OpenRouter 上的爆炸式增長證明了「開源導向」是中國模型走向全球的主要推手。台灣在應用端可大膽整合這些「Efficient Giants」,將成本節省用於前端的場景優化。
  • 多模型架構的必要性:既然沒有單一模型能統治所有畫像(Roleplay 選 DeepSeek, Code 選 Claude),台灣企業與智庫應採取 「多模型 Stack」,以實現成本與效能的最佳平衡。

3. 對學術研究方向的思考

  • 關注代理人推論的偏差:當 AI 開始自主調用工具與規劃路徑(Agentic Inference),其偏差將不再只是「說錯話」,而是「做錯事」。這在政治與法律研究中是極為關鍵的新課題。
  • 留存率研究的應用:我們應研究如何縮短用戶找到「玻璃鞋」模型的路程,以提升數位轉型的成功率。

結語

OpenRouter 的數據揭示了一個殘酷但也充滿希望的真相:AI 的大航海時代,o1 等推理模型的出現並沒有封頂競爭,反而開啟了**「多步操作」與「場景適配」**的新戰場。未來不屬於擁有最大模型的人,而屬於能精準找到那雙「玻璃鞋」的人。