論文閱讀:How People Use ChatGPT - 全球7億用戶的ChatGPT使用行為深度分析
近日閱讀了來自OpenAI、杜克大學和哈佛大學研究團隊的重要研究論文《How People Use ChatGPT》,這是首個基於ChatGPT內部數據的大規模使用行為研究。該研究通過創新的隱私保護方法,分析了從2022年11月ChatGPT發布至2025年7月期間7億用戶的260億條消息,揭示了生成式AI的實際使用模式和經濟價值。
研究方法與數據
隱私保護的自動化分類系統
該研究最大的技術亮點在於其隱私保護方法:
自動化分類流程:
- 使用LLM分類器自動分析消息內容,人類從不查看原始消息
- 先通過PII清洗工具去除敏感信息
- 僅分析聚合結果,任何查詢都必須返回至少100個用戶的組合
分類範疇:
- 工作/非工作用途:基於消息是否與付費工作相關
- 對話主題:24個細分類別,歸納為7大主題
- 互動意圖:Asking(詢問)、Doing(執行)、Expressing(表達)
- 工作活動:基於O*NET系統的332個中級工作活動
數據樣本
- 主要樣本:2024年5月至2025年6月的110萬對話隨機抽樣
- 用戶樣本:約13萬用戶的子集,用於人口統計分析
- 排除條件:未登入用戶、18歲以下、已刪除帳號、選擇退出訓練的用戶
📈 1. 成長與結構:非工作用途的爆發式增長
整體成長數據
用戶規模:
- 2025年7月:7億周活躍用戶(約占全球成年人口10%)
- 日均消息量:25億條(每秒29,000條)
- 成長速度:史上擴散最快的技術,超越所有先例
非工作用量拉升更快
核心發現:非工作相關用途的增長速度遠超工作用途。
| 時間點 | 非工作消息 | 佔比 | 工作消息 | 佔比 | 總計 |
|---|---|---|---|---|---|
| 2024年6月 | 2.38億 | 53% | 2.13億 | 47% | 4.51億 |
| 2025年6月 | 19.11億 | 73% | 7.16億 | 27% | 26.27億 |
關鍵洞察:
- 非工作消息增長8倍(238%),工作消息增長3.4倍(236%)
- 2025年6月非工作用途已占73%,是絕對主導
- 這個轉變主要來自現有用戶使用模式的變化,而非新用戶構成改變
使用主題的動態演化
三大主流用途(占總使用近80%):
實用指引(Practical Guidance):長期穩定在約29%
- 輔導教學(占實用指引36%)
- How-to建議(占實用指引30%)
- 創意構思
寫作(Writing):36% → 24%(一年內下降)
- 但在工作用途中仍是第一大類(約40%)
- 管理/商務族群使用比例更高(>50%)
- 關鍵發現:約2/3的寫作用途是修改用戶提供的文字(編輯、批判、翻譯、總結),而非從零創作
資訊查找(Seeking Information):14% → 24%(快速上升)
- 搜索特定人物、事件、產品、食譜等
- 成為網路搜索的近距離替代品
其他主題變化:
技術求助(Technical Help):12% → ~5%
- 編程相關僅占4.2%,顯著低於預期
- 可能轉向IDE插件、專業編程工具或API場景
多媒體(Multimedia):2% → >7%
- 2025年4月影像生成功能上線後短期跳升
- 隨後回調但維持較高基線
💼 2. 工作場景與任務:AI作為決策支援系統
寫作:白領階層的共通母任務
在工作相關消息中,寫作占約40%,是最主要的工作用途:
職業差異:
- 管理/商務:**52%**的工作相關消息是寫作
- 教育/醫療:49-50%
- 計算機相關:相對較低,更偏重技術協助
內容分析:
- 約2/3的寫作請求是修改現有文字(編輯、批判、翻譯、總結)
- 約1/3是從零創作(新郵件、簡報、提案等)
- 這解釋了寫作用途的高滿意度和穩定成長:風險可控,能直接整合到既有工作流程
基於O*NET的工作活動分析
研究將工作消息映射到美國勞工部的O*NET工作活動系統,發現:
七大主要工作活動覆蓋約77%所有消息:
| 活動類別 | 所有消息 | 工作消息 | 特點 |
|---|---|---|---|
| 獲取資訊 | 19.3% | 6.7% | 工作場景下更專注於專業信息 |
| 為他人解釋資訊 | 13.1% | 7.3% | 協作和知識傳遞 |
| 記錄/文件化資訊 | 12.8% | 13.2% | 工作場景第一大類 |
| 提供諮詢和建議 | 9.2% | 3.1% | 專業服務核心 |
| 創意思考 | 9.1% | 9.3% | 解決問題和創新 |
| 決策與解題 | 8.5% | 10.6% | 工作場景第二大類 |
| 與電腦工作 | 4.9% | 7.7% | 技術密集型工作 |
跨職業的高度同質性:
不論是管理、工程、教育、醫療或行政職業,前5名工作活動幾乎相同:
- 獲取資訊
- 決策與解題
- 記錄/文件化
- 創意思考
- 為他人解釋資訊
這顯示ChatGPT在不同職業中的價值創造模式高度一致。
🎯 3. 互動型態與體驗:從執行到思考的轉變
Asking/Doing/Expressing框架
研究將用戶意圖分為三類,發現顯著趨勢變化:
整體分佈(2024年5月):
- Asking(詢問):49% - 尋求信息或建議幫助決策
- Doing(執行):40% - 請求完成具體任務
- Expressing(表達):11% - 表達觀點或感受
趨勢變化(至2025年6月):
- Asking:51.6%(↑)
- Doing:34.6%(↓)
- Expressing:13.8%(↑)
工作場景差異:
- Asking:35%
- Doing:56%(約75%是寫作任務)
- Expressing:9%
體驗品質分析
整體滿意度成長:
- 好評/差評比:從約3:1 → 4:1
- 體驗品質與使用意圖高度相關
按主題分類的好評率:
- 自我表達:最高(好/壞比>7)
- 多媒體:較低(約1.7)
- 技術求助:較低(約2.7)
按意圖分類:
- Asking的滿意度顯著高於Doing和Expressing
- 這與「幫助思考和決策」的核心價值一致
👥 4. 族群與擴散:從菁英工具到全民應用
性別差異的消失
驚人的轉變:
- 早期(2022年底):約80%活躍用戶有典型男性名字
- 2025年6月:48%(女性略多)
主題偏好差異:
- 女性用戶:更偏好寫作和實用指引
- 男性用戶:更多技術協助、資訊查找和多媒體
年齡結構
年輕用戶主導:
- 18-25歲貢獻近**46%**的消息
- 年齡越高,工作用途占比越高(除66+歲例外)
地域擴散:低中等收入國家的逆襲
GDP與採用率關係:
- 1-4萬美元GDP per capita的國家採用增速最快
- 2024-2025年間,低中等收入國家實現跨越式成長
- 顛覆了「AI技術首先在發達國家普及」的傳統模式
學歷與職業:高教育高收入的優勢
學歷影響:
- 學歷越高,工作用途占比越高
- <學士學位:37%
- 學士學位:46%
- 研究生:48%
- 高教育用戶更傾向使用Asking模式(決策支援)
職業差異:
- 計算機相關:57%工作用途
- 管理/商務:50%
- 工程/科學:48%
- 其他專業:44%
- 非專業:40%
🔥 有意思/反直覺的8點發現
1. 非工作使用遠超預期
- **73%**的消息不是工作用途
- 家庭生產/個人決策支援的經濟福利可能被嚴重低估
- Collis和Brynjolfsson估算僅美國一年消費者剩餘就達970億美元
2. 編程只占4.2%
- 與「AI=寫程式」的刻板印象完全不符
- 大量程式輔助任務已轉移到IDE插件、專業工具鏈、API場景
3. 寫作≠從零生成
- 多數是「修改你的文字」(編輯、批判、翻譯、總結)
- 這解釋了滿意度和採納率能穩定成長:風險可控、能直接整合到工作流程
4. Asking趨勢上升
- 越來越多用戶把ChatGPT當作決策支援系統,而非代筆工具
- Asking消息的滿意度顯著高於Doing
5. 女性比重上升並反超
- 從80%男性用戶到男女比例均衡
- 顯示產品親和力與場景多樣性提升
6. 教育/訓練用例扎實
- 約**10%**的全量消息都是教學/家教
- 占「實用指引」的36%,需求穩定
7. 跨職業高度同構
- 不論行業,本質都回到「資訊→理解→決策」
- AI價值在於縮短思考閉環,而非只做粗活
8. 體驗數據佐證價值觀
- Asking的好評率顯著高於Doing
- 與「先幫我想清楚」的核心需求相符
💡 對商業/教育/產品的策略啟示
內容與服務設計
1. 以「修改/提升原文」為核心
- 校對潤色、改寫、翻譯、摘要、格式化
- 比「從零生成」更容易落地和被信任
- 市場定位:寫作增強工具而非創作工具
2. 決策支援的「問診式流程」
- 先了解需求限制與偏好
- 再給方案與風險評估
- 可應用場景:
- 政策簡報
- 專案評估
- 採購比價
- 法務要點整理
功能優先級
寫作增強套件:
- 多語翻譯 + 風格模板
- 一鍵「人聲調性校準」
- 行業特定詞庫和格式
Asking助理:
- 決策樹和情境分支
- 可追問的依據顯示(引用/算式/假設)
- 風險提示和假設檢驗
知識工作流程:
- 取數→摘錄→歸檔→比對→決策備忘
- 串聯工具而非單點解決方案
市場拓展策略
地域拓展:
- 針對中低收入市場做低價位 + 離線友好方案
- 因為這些地區成長最快
垂直行業:
- 教育線:家教/課輔模板化(10%占比穩定需求)
- 企業服務:會議紀要→決策表單自動化
變現與ROI
個人用戶:
- 寫作改稿與翻譯屬高頻 + 剛需
- 易轉付費訂閱
企業客戶:
- 決策支援可走B2B顧問增值路線
- 合規摘要、風險提示、專業報告生成
🔬 方法與可信度評估
研究優勢
1. 史無前例的數據規模
- 7億用戶、260億消息
- 全球性樣本而非單一國家
2. 創新的隱私保護方法
- LLM自動分類,人類從不查看原始內容
- Data Clean Room聚合分析
- 排除<100人的組合以保護隱私
3. 多維度分類系統
- 工作/非工作、主題、意圖、工作活動
- 理論基礎扎實(O*NET系統)
分類器驗證
研究在WildChat公開數據集上驗證分類器性能:
| 任務 | 人機一致性(κ) | 說明 |
|---|---|---|
| 工作/非工作 | 0.83 | 優秀 |
| Asking/Doing/Expressing | 0.74 | 良好 |
| 對話主題 | 0.56 | 中等 |
| O*NET工作活動 | 0.47 | 中等(332類別複雜) |
| 互動品質 | 0.14 | 較差(主觀性強) |
關鍵發現:
- 客觀分類(工作/非工作)的表現優秀
- 主觀分類(品質評估)較困難,但仍捕捉到方向性信號
- 與用戶拇指評分有正向關聯
研究局限性
1. 樣本偏差
- 排除未登入、18歲以下用戶
- 可能低估年輕用戶和臨時用戶比例
2. 分類準確性
- LLM分類器仍有誤判
- 特別是邊界模糊的類別
3. 因果推斷
- 主要為描述性統計
- 使用模式變化的因果機制仍需進一步研究
總結與展望
這項研究為我們提供了關於ChatGPT使用的第一手、規模空前的實證數據。最重要的發現是:
1. 從工作工具到生活助手:非工作用途已成為主導,反映生成式AI的價值遠超工作效率提升
2. 決策支援的價值:Asking模式(決策支援)的興起,顯示AI的核心價值在於改善決策質量
3. 普及化的實現:性別差異消失、地域擴散加速,表明技術已經跨越了初期採用障礙
4. 跨領域的一致性:不同職業的相似使用模式,指向AI作為通用認知工具的潛力
這項研究不僅揭示了ChatGPT的現實使用狀況,更為理解生成式AI對經濟和社會的長期影響提供了重要的基礎。隨著AI技術的不斷發展,我們需要持續關注這些使用模式的演變,以最大化AI對人類福祉的貢獻。
論文信息:
- 標題:How People Use ChatGPT
- 作者:Aaron Chatterji (OpenAI/Duke), Tom Cunningham (OpenAI), David Deming (Harvard), Zoë Hitzig (OpenAI/Harvard), Christopher Ong (OpenAI/Harvard), Carl Shan (OpenAI), Kevin Wadman (OpenAI)
- 機構:OpenAI、杜克大學、哈佛大學
- 發表:2025年9月15日
- 論文地址:https://cdn.openai.com/pdf/a253471f-8260-40c6-a2cc-aa93fe9f142e/economic-research-chatgpt-usage-paper.pdf