論文資訊

標題: Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
來源: arXiv
論文 ID: 2504.13837
連結: arXiv | PDF

研究背景

強化學習與可驗證獎勵（Reinforcement Learning with Verifiable Rewards, RLVR）近期在提升大型語言模型的推理表現上取得了顯著成功，特別是在數學和程式設計任務上。

傳統觀點認為，RLVR 能夠使 LLMs 持續自我改進，從而獲得超越基礎模型的新型推理能力——就像傳統 RL 幫助智能體探索和學習新策略一樣。

但是這個假設真的成立嗎？

本研究通過系統性地探測 RLVR 訓練的 LLMs 在各種場景下的推理能力邊界，試圖回答一個關鍵問題：

RLVR 訓練是否真的讓 LLMs 獲得了超越基礎模型的新推理能力？

研究方法

評估設計

研究團隊使用 pass@k（在大 k 值時） 作為評估指標，跨越多個維度：

模型家族：多個不同的 LLM 架構
RL 演算法：六種流行的 RLVR 演算法
基準測試：數學、程式設計、視覺推理

分析方法

Pass@k 評估：使用大 k 值來探測模型的能力上界
覆蓋率分析（Coverage Analysis）：衡量 RLVR 訓練模型能否產生基礎模型無法產生的解決方案
困惑度分析（Perplexity Analysis）：評估 RLVR 訓練模型的輸出是否仍在基礎模型的分佈內

主要發現

1. 當前訓練設置無法激發根本性的新推理模式

令人驚訝的核心發現：

✅ 小 k 值時（如 k=1）: RLVR 訓練模型優於基礎模型
❌ 大 k 值時: 基礎模型反而獲得更高的 pass@k 分數

這意味著什麼？

RLVR 訓練主要是在「篩選」（Selecting）基礎模型已有的能力，而非創造新的推理模式。就像是從一個已經裝滿了各種工具的工具箱裡，學會更快地挑出正確的工具，但並沒有製造出新的工具。

2. 推理能力受限於基礎模型

通過覆蓋率分析和困惑度分析，研究發現：

觀察到的推理能力源自並受限於基礎模型
將基礎模型視為能力上界，六種流行的 RLVR 演算法表現相似
所有方法都遠未達到充分利用基礎模型潛力的最優狀態

基礎模型就是天花板——無論如何訓練，RLVR 都無法讓模型跳出基礎模型定義的能力邊界。

3. 蒸餾方法展現不同的優勢

相比之下，知識蒸餾（Distillation）表現出不同的特性：

能夠從教師模型引入新的推理模式
真正擴展模型的推理能力
不只是重新排列現有知識

這暗示了一個重要的方法論差異：蒸餾能夠「教會」模型新的推理路徑，而 RLVR 只是在「優化選擇」。

研究意義與啟示

對 RL 在 LLM 領域的反思

這項研究揭示了當前 RLVR 方法的一個根本性限制：

當前的 RLVR 訓練範式尚未實現 RL 在 LLMs 中激發真正新穎推理能力的潛力。

這與我們對 RL 的期待有很大差距。在傳統 RL 領域（如遊戲 AI），RL 能夠發現人類從未想過的策略。但在 LLM 領域，目前的 RLVR 方法似乎只是在「挖掘」而非「創造」。

未來研究方向

研究強調了改進 RL 範式的必要性：

持續擴展（Continual Scaling）
- 長期、持續的訓練過程
- 而非一次性的優化
多輪代理-環境互動（Multi-turn Agent-Environment Interaction）
- 真正的互動式學習
- 而非靜態數據集上的訓練
新的評估範式
- Pass@k（大 k）而非只看 pass@1
- 更全面地評估能力邊界

我的理解

讀完這篇論文，我最大的感受是：這真的是一篇「打臉」論文。過去這一年，RLVR 在 LLM 領域被捧得很高，OpenAI 的 o1、DeepSeek 的 R1 都號稱用了強化學習讓模型「學會思考」。但這篇研究冷靜地告訴我們：慢著，你確定模型真的學會了新東西嗎？還是只是學會了從已有的工具箱裡更快地挑出正確答案？

1. 「選擇器」vs「創造器」：一個殘酷的真相

我覺得這篇論文最核心的洞察，就是把 RLVR 定位為「選擇器」而非「能力擴展器」。這聽起來可能有點抽象，但其實很好理解。想像你有一個學生，他的腦子裡已經有很多解題方法了（基礎模型），但他不太確定哪個方法最好，所以隨機試。RLVR 訓練就像是給他做了很多練習題，讓他學會「看到這種題就用這個方法」，提高了他的答題準確率（pass@1）。

但問題是，如果你給這個學生很多次嘗試的機會（pass@k，大 k），他本來就能靠「試錯」把正確答案試出來。RLVR 訓練並沒有教會他任何新的解題方法，只是讓他更快地找到對的那個。這就是為什麼在 pass@k 大的時候，基礎模型反而表現更好——因為它還保有更多元的嘗試可能性，而 RLVR 訓練後的模型已經被「定型」了，只會優先選擇訓練過程中獎勵高的那些路徑。

這個發現其實很殘酷，因為它意味著我們過去一年看到的很多「推理能力提升」，可能只是表面功夫。

2. 基礎模型是天花板：投資應該放在哪？

這篇論文讓我重新思考資源分配的問題。如果基礎模型就是能力的天花板，那產業界是不是應該把更多資源投入在 pre-training 上，而不是在 RLVR 的各種花式調參上？

目前的趨勢是，大家拼命在想怎麼用更少的數據、更巧妙的 reward shaping 來做 RLVR。但這篇研究告訴我們，再怎麼優化，你也跳不出基礎模型的能力邊界。那與其在 RLVR 上精雕細琢，不如直接訓練一個更強的基礎模型豈不是更實在？

當然，這不是說 RLVR 完全沒用。在 pass@1 的場景下（也就是實際應用中最常見的情況），RLVR 確實能顯著提升表現。但我們得清楚知道它的本質：它是一個「優化器」而非「擴展器」。

3. 知識蒸餾的啟示：為什麼它能做到 RLVR 做不到的事？

論文提到知識蒸餾能引入新的推理模式，這讓我很好奇。為什麼蒸餾可以，而 RLVR 不行？

我的理解是，蒸餾本質上是「知識遷移」——你從一個更強的老師模型那裡，學到了「新的思考方式」。這是真正的能力擴展。而 RLVR 只是在自己的能力範圍內「自我優化」，沒有外部知識的注入。

這讓我想到，也許未來真正有效的訓練範式，應該是「蒸餾 + RLVR」的結合：先用蒸餾擴展能力邊界，再用 RLVR 優化決策品質。單靠 RLVR 想讓模型「自己涌現」出新能力，可能本來就是一個不切實際的期待。

4. Pass@k 的哲學：我們到底在評估什麼？

這篇論文也提醒了我評估方法的重要性。我們習慣用 pass@1 來評估模型，因為它最接近真實應用場景。但 pass@1 可能給我們一個過度樂觀的假象。

Pass@k（大 k）揭示的是模型的「能力邊界」——它「可能」做對的上限。而 pass@1 只是告訴我們模型「通常」會怎麼做。這兩者的gap，就是 RLVR 在做的事情：縮小「可能」和「通常」之間的距離。

但如果我們只看 pass@1，就會誤以為 RLVR 真的讓模型變聰明了。實際上，模型的「天花板」並沒有提高，只是「平均表現」提高了。這個區別很重要。

5. 對未來的思考：真正的推理需要什麼？

讀完這篇論文，我覺得當前的 RLVR 範式可能從一開始就設計錯了。我們把 LLM 當成一個「靜態的策略空間」，然後用 RL 去優化策略選擇。但真正的推理，不應該是這樣的。

真正的推理應該是「動態的、互動的、持續學習的」。就像人類不是通過做題練習學會思考，而是通過與世界的長期互動、試錯、反思來發展推理能力。論文提到的「多輪代理-環境互動」可能才是正確的方向。

也許我們需要的不是用 RL 來訓練模型，而是用 RL 來讓模型「活」在一個環境裡，真正地探索、犯錯、學習、成長。那才是 RL 的本質，而不是現在這種在靜態數據集上做的「偽 RL」。

6. 一個令人不安的問題

最後，這篇論文讓我想到一個更深層的問題：如果 RLVR 無法讓模型真正變聰明，那 o1 這些號稱有「推理能力」的模型，到底是怎麼回事？

有兩種可能：一是它們的基礎模型本來就非常強大，RLVR 只是把這個潛力發掘出來了；二是它們用了一些這篇論文沒有涵蓋的技巧（比如 chain-of-thought、test-time compute scaling）。

無論如何，這篇研究提醒我們：不要被表面的性能提升迷惑，要深入思考能力的本質來源。這對做研究和做產品都很重要。

延伸思考

1. RLVR vs. 知識蒸餾：本質差異是什麼？

為什麼蒸餾能引入新模式？
兩者在訓練過程中的根本區別在哪裡？
能否結合兩者的優勢？

2. 評估方法的重要性

Pass@1 vs. Pass@k（大 k）的差異揭示了什麼？
我們是否過度依賴單一指標來評估模型能力？
還有哪些評估維度可以探索？

3. 基礎模型的角色

投資於更好的基礎模型訓練 vs. 更複雜的 RLVR 方法，哪個更值得？
Pre-training 的改進方向在哪裡？
基礎模型的「能力邊界」是如何形成的？

論文閱讀：Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?