Anthropic 最新研究6大發現解析：不具備專業領域知識，你沒辦法用好 Claude

由 Anthropic 打造的 AI 工具 Claude，與 ChatGPT、Gemini 並列被視為通用型生成式 AI 的三巨頭，近期更成為職場新寵兒。著有《10歲開始學AI，越玩越升級》的林穎俊老師，帶你解析 Anthropic 最新研究與關鍵觀察。

Anthropic 最新研究表格1：Expertise classifier，本文附林穎俊老師中文翻譯表格。截圖自 Anthropic

文林穎俊

2026-06-18 16:25

本文重點摘要

Anthropic 最新研究主要的6個發現
不具備專業領域知識，你沒辦法用好 Claude

Anthropic 最新研究發現，使用 AI 寫程式的關鍵不是你會不會寫程式，而是你對自己工作領域的理解有多深。

就算是律師、會計師、管理者，只要你清楚知道自己要解決什麼問題，就能用 AI 完成複雜的技術工作，成功率和軟體工程師幾乎一樣。這意味著 AI 正在讓程式設計變成每個領域的日常工具，而不是少數人的專業技能。

Anthropic 基於 2025 年 10 月至 2026 年 4 月間，約 40 萬次 Claude Code 實際對話 session 分析（來自約 23.5 萬名使用者）的隱私保護分析，探討 Agentic AI 程式設計工具的實際使用情況。

Anthropic 最新研究主要的6個發現

人機分工明確：

在一般的工作階段中，使用者負責約 70% 的「規劃(planning)決策」（決定要做什麼），而 Claude 則負責約 80% 的「執行(execution)決策」（決定如何做）。人類掌控方向，AI 負責實作。

領域專業知識是關鍵放大器：

使用者帶入的「領域知識」越豐富，Claude 每次指令完成的工作就越多。專家級使用者每個提示詞平均觸發 12 個 Claude 動作、產出 3,200 字，而初學者僅觸發 5 個動作、600 字。重要的是，這裡的「專業知識」指的是對問題領域的理解，而非程式設計本身的能力。

職業背景影響有限：

在產生程式碼的工作階段中，所有主要職業（包括法律、管理、金融等）的成功率，與軟體工程師相差不超過 7 個百分點。這顯示 AI 正在降低「會寫程式」對於成功使用程式工具的門檻。

專業知識與成功率的關係：

專家級使用者達到「驗證成功」的比例（28-33%）是初學者（15%）的兩倍以上。尤其在遇到困難時，初學者放棄工作階段的比例（19%）是其他人的三到四倍。值得注意的是，從「初學者」到「中級」的進步帶來最大收益，中級到專家的差距則相對較小。

工作內容轉變：

七個月間，用於「修復錯誤程式碼」的工作階段比例從 33% 下降至 19%，而「操作軟體」、「數據分析」與「撰寫文件」的比例則顯著增長，反映 AI 正承擔更多端到端的完整任務。

任務價值提升：

估算的平均工作階段價值在七個月內增長約 25-27%，幾乎所有工作類型的任務都變得更具價值。

Agentic Coding 工具並非在取代領域專業知識，而是在放大它。

一個對自身工作領域有深刻理解的人（不論是律師、會計師或管理者），如今可能能夠完成過去無法獨力完成的技術工作；而缺乏任何領域掌握能力的人，從同樣工具中獲得的收益則相當有限。研究者認為，這預示了未來知識工作的一個重要趨勢：AI 工具的效益將更多地回饋給那些對其工作問題有深刻理解的人。

（＊以上由Claude協作摘要）

不具備專業領域知識，你沒辦法用好 Claude

Anthropic 這個報告不僅告訴我們使用 Claude 關鍵不是你會不會寫程式，而是你對自己工作領域的理解有多深。所以如果你是不具專業知識的新手你用不好 Claude。

但報告中也有提到使用 Claude 最大的效益來自於「新手」晉升到「中階」，而「中階」到「專家」之間的提升則沒有很明顯的差距。

也就是說你不具備專業領域知識，你沒辦法用好 Claude，但當你具備深度的專業領域知識對你用好 Claude 的幫助其實也不大。如何在中間取捨，就是個有趣的問題？

想像你要裝潢房子，而 Claude 是你的頂級工班師傅。一開始你連「水電管線」都不知道（新手），師傅問你要怎麼弄你都答不出來，最後結果可能一團糟。但只要你做點功課，學會基本的常識，懂得跟師傅說「我要牽暗管」、「要有雙切開關」（中階），師傅強大的執行力就能幫你把事辦得又快又好，這就是你進步最大、效益最高的階段。

當你已經能掌握大方向後，如果你再去死背最冷門的工法（深度專家），雖然能讓細節更完美，但因為師傅（Claude）本身手藝就已經很好了，你多花的這些苦工，帶來的升級感就不如一開始那麼明顯了。

另外，根據這張表格，你會發現越懂一些術語或概念，Claude就做的越好。如果我們把軟體開開發區分為寫程式跟軟體工程。

寫程式：偏向執行，像是語法、迴圈等，Claude已經做得很好了
軟體工程：偏向規劃，包含系統架構、狀態管理、快取策略跟測試驗證等權衡決策

專業程度	分類器會觀察什麼	一段對話中的代表性請求
1 新手	使用者的要求沒有特定領域術語。若有驗證要求，也很籠統，例如「再檢查一下」。使用者無法辨識 Claude 的錯誤。	第1次提示：你可以分析這些資料並做一張圖表嗎？第3次提示：你也可以讓它顯示隨時間變化的趨勢嗎？第6次提示：這不是我預期的結果，請再檢查一下你做了什麼。
2 初學者	使用者的要求包含一些領域術語。驗證要求沒有明確目標。使用者只會對明顯錯誤提出質疑。	第1次提示：什麼是 BigQuery？第2次提示：你可以幫我做一次小型執行嗎？一步步帶我操作。第5次提示：我怎麼知道自己是否有核准？第12次提示：等等，你有用我隊友用的那份精確規格嗎？
3 中階	使用者會以一些領域特定方向來描述要求，但不會深入探討方法或取捨。使用者會要求一些不模糊的檢查，且可能注意到 Claude 的錯誤。	第1次提示：你可以檢查這個分支是否可以合併嗎？第7次提示：我們應該針對頁面的每個部分分別做 fetcher 嗎？這樣不是可以最佳化每個區塊的快取嗎？例如我們可以把基本細節快取得比效能資料更久？第19次提示：好，到目前為止都不錯。關於快取我們到哪一步了？你覺得你做的修改會降低在「資料庫供應商」上的出口流量嗎？請處理我修改後剩下的部分。
4 進階	使用者展現領域知識，並會主動預期一些取捨。驗證要求有明確目標。使用者至少能抓到 Claude 的一個領域錯誤。	第2次提示：進到第3階段前，測試這個階段的正確方式是什麼？第5次提示：等等，agent console 跟一般 chat 有什麼不同？我很確定要跟 agent 對話唯一的方式就是透過這個 session console view。第88次提示：看起來 parsing 修正沒有生效，檔案行數仍然是 742：wc -l [file name] 第106次提示：除了 regex，有沒有更好、更可靠的方法可以抓出使用者回合？例如在解析 jsonl 時，以 record 欄位作為依據。
5 專家	使用者使用成熟的領域專門術語，並能預期複雜取捨與設計決策。驗證非常精準，會針對薄弱點。使用者會修正 Claude，Claude 幾乎不會修正使用者。	第1次提示：我需要深入研究「使用者」在這裡回報的問題：「url」。注意，我們上一版 PR 做的修正還不夠。還有其他想法嗎？第3次提示：code cleared 之後就不應該再回傳 **。第64次提示：好的。也應該註明我們可能需要依 managed 與 unmanaged slots 的不同進一步降低 hard refresh，例如 managed 的可以每30分鐘 refresh，一般的則每天一次。第108次提示：**我們應該改用重試，而不是 best effort 嗎？sync 需要可靠地知道 lock 上有什麼。記得原本那個 bug 嗎？valuedb 過期，導致它一直迴圈嘗試設定 pin。重試不一定是最佳解法，但 best effort 也不是。