論文閱讀：Aegaeon - 市場上並發 LLM 服務的高效 GPU 池化技術

最近閱讀了一篇即將發表在 SOSP ‘25 的重要論文《Aegaeon: Effective GPU Pooling for Concurrent LLM Serving on the Market》，這篇由北京大學和阿里巴巴集團合作完成的研究，提出了一個革命性的多模型 LLM 服務系統，大幅提升了 GPU 資源利用效率。

研究背景與挑戰

模型市場的資源浪費問題

隨著大型語言模型的快速發展，Hugging Face 等模型市場現在托管了超過一百萬個模型。然而，在實際生產環境中存在嚴重的資源浪費：

長尾效應明顯：94.1% 的模型僅接收 1.35% 的請求
資源配置不均：17.7% 的 GPU 用於服務平均每秒少於 0.2 個請求的"冷"模型
突發負載難以應對：“熱"模型（如 DeepSeek、Llama、Qwen）面臨請求突發，可能超出預留資源

現有方案的局限

現有的 GPU 池化解決方案主要分為兩類：

多路復用 (Multiplexing)：受 GPU 記憶體容量限制，最多支援 2-3 個模型/GPU
自動擴展 (Auto-scaling)：在請求級別進行擴展，存在頭部阻塞 (HOL) 問題

Aegaeon 的核心創新

Token 級別自動擴展

Aegaeon 的最大創新在於** token 級別的自動擴展機制**，與現有方案的請求級別擴展形成對比：

請求級別擴展：必須等待整個請求完成才能切換模型 Token 級別擴展：可以在 token 生成過程中預測性地切換模型

分離式調度架構

Aegaeon 將 GPU 池分為兩個分區：

Prefill 實例：專門處理輸入提示的初始處理
Decoding 實例：專門處理後續 token 的生成

這種分離避免了統一調度的複雜性，實現了更平衡的資源利用。

調度策略

Prefill 階段調度：

採用分組 FCFS (First-Come-First-Serve) 策略
將相同模型的請求分組，最大組大小為 8
優先加載到現有組，減少過度擴展

Decoding 階段調度：

使用加權輪詢 (Weighted Round-Robin) 策略
基於 SLO 要求分配時間配額
利用輸出緩衝來隱藏延遲

系統優化技術

組件重用 (Component Reuse)

Aegaeon 通過重用推理引擎組件大幅減少初始化開銷：

分散式執行器（Ray、NCCL）
分析和優化組件
分詞器
記憶體池

顯式記憶體管理

自管理 VRAM 緩衝區：

一次性分配所有必要的 VRAM
使用 bump 分配策略避免碎片
繞過張量庫的分配機制

統一 KV 快取：

採用 slab 分配技術
為每種形狀的 KV 快取維護專用池
有效管理記憶體碎片

細粒度 KV 快取同步

使用 CUDA 事件實現非同步 KV 快取傳輸：

cudaEventRecord：記錄傳輸事件
cudaEventQuery：查詢完成狀態
cudaStreamWaitEvent：同步執行順序

實驗結果與性能評估

端到端性能

在 ShareGPT 數據集上的測試結果：

RPS = 0.1：Aegaeon 支援 70 個模型，比 ServerlessLLM 高 2 倍
RPS = 0.5：Aegaeon 實現 2.5 倍更高的請求到達率
單 GPU 效率：支援高達 7 個模型/GPU

嚴格 SLO 下的表現

即使在更嚴格的 SLO 要求下：

0.5× SLO：仍比基線方案多支援 50% 的模型
0.3× SLO：多支援 12.5% 的模型

自動擴展速度

50% 的情況下實現近乎即時擴展（通過預取）
其餘情況在 1 秒內完成擴展
每請求的 KV 快取傳輸開銷小於 1 秒

生產環境部署

部署規模

Aegaeon 已在阿里雲模型工作室進行為期三個月的測試部署：

GPU 規模：213 個 H20 GPU
模型數量：47 個模型（28 個 1.8-7B，19 個 32-72B）
資源節省：從原本的 1,192 個 GPU 減少到 213 個（節省 82%）

實際性能提升

GPU 利用率從平均 13.3%∼33.9% 提升到 48.1%，在 70 小時的監控期間沒有觀察到 SLO 違規或服務中斷。

技術貢獻總結

首次揭示市場上並發 LLM 服務的過度成本問題
首個 token 級別自動擴展的多模型服務解決方案
首次全面優化預測性自動擴展過程，開銷降低 97%
真實生產部署驗證，證明顯著降低 OPEX 的能力

未來發展方向

雖然 Aegaeon 取得了突破性進展，但在以下方面還有改進空間：

支援更大規模的模型集群
優化極低延遲場景下的性能
探索與多路復用技術的結合
擴展到更多樣化的硬體平台

結論

Aegaeon 代表了 LLM 推理系統設計的一個重要里程碑。通過 token 級別的自動擴展和全棧優化，它不僅解決了模型市場面臨的資源浪費問題，為雲端 AI 服務的可持續發展提供了技術基礎。

📄 論文資訊

論文標題：Aegaeon: Effective GPU Pooling for Concurrent LLM Serving on the Market
作者：Yuxing Xiang, Xue Li, Kun Qian, Yufan Yang, Diwen Zhu, Wenyuan Yu, Ennan Zhai, Xuanzhe Liu, Xin Jin, Jingren Zhou
機構：北京大學、阿里巴巴集團
會議：ACM SIGOPS 31st Symposium on Operating Systems Principles (SOSP ‘25)
發表年份：2025
DOI：https://doi.org/10.1145/3731569.3764815
PDF 連結：https://dl.acm.org/doi/pdf/10.1145/3731569.3764815