Anthropic 最新研究6大發現解析:不具備專業領域知識,你沒辦法用好 Claude

由 Anthropic 打造的 AI 工具 Claude,與 ChatGPT、Gemini 並列被視為通用型生成式 AI 的三巨頭,近期更成為職場新寵兒。著有《10歲開始學AI,越玩越升級》的林穎俊老師,帶你解析 Anthropic 最新研究與關鍵觀察。

Anthropic 最新研究表格1:Expertise classifier,本文附林穎俊老師中文翻譯表格。截圖自 Anthropic

Anthropic 最新研究表格1:Expertise classifier,本文附林穎俊老師中文翻譯表格。截圖自 Anthropic

本文重點摘要

Anthropic 最新研究發現,使用 AI 寫程式的關鍵不是你會不會寫程式,而是你對自己工作領域的理解有多深。

就算是律師、會計師、管理者,只要你清楚知道自己要解決什麼問題,就能用 AI 完成複雜的技術工作,成功率和軟體工程師幾乎一樣。這意味著 AI 正在讓程式設計變成每個領域的日常工具,而不是少數人的專業技能。

Anthropic 基於 2025 年 10 月至 2026 年 4 月間,約 40 萬次 Claude Code 實際對話 session 分析(來自約 23.5 萬名使用者)的隱私保護分析,探討 Agentic AI 程式設計工具的實際使用情況。

Anthropic 最新研究主要的6個發現

人機分工明確:

在一般的工作階段中,使用者負責約 70% 的「規劃(planning)決策」(決定要做什麼),而 Claude 則負責約 80% 的「執行(execution)決策」(決定如何做)。人類掌控方向,AI 負責實作。

領域專業知識是關鍵放大器:

使用者帶入的「領域知識」越豐富,Claude 每次指令完成的工作就越多。專家級使用者每個提示詞平均觸發 12 個 Claude 動作、產出 3,200 字,而初學者僅觸發 5 個動作、600 字。重要的是,這裡的「專業知識」指的是對問題領域的理解,而非程式設計本身的能力。

職業背景影響有限:

在產生程式碼的工作階段中,所有主要職業(包括法律、管理、金融等)的成功率,與軟體工程師相差不超過 7 個百分點。這顯示 AI 正在降低「會寫程式」對於成功使用程式工具的門檻。

專業知識與成功率的關係:

專家級使用者達到「驗證成功」的比例(28-33%)是初學者(15%)的兩倍以上。尤其在遇到困難時,初學者放棄工作階段的比例(19%)是其他人的三到四倍。值得注意的是,從「初學者」到「中級」的進步帶來最大收益,中級到專家的差距則相對較小。

工作內容轉變:

七個月間,用於「修復錯誤程式碼」的工作階段比例從 33% 下降至 19%,而「操作軟體」、「數據分析」與「撰寫文件」的比例則顯著增長,反映 AI 正承擔更多端到端的完整任務。

任務價值提升:

估算的平均工作階段價值在七個月內增長約 25-27%,幾乎所有工作類型的任務都變得更具價值。

Agentic Coding 工具並非在取代領域專業知識,而是在放大它。

一個對自身工作領域有深刻理解的人(不論是律師、會計師或管理者),如今可能能夠完成過去無法獨力完成的技術工作;而缺乏任何領域掌握能力的人,從同樣工具中獲得的收益則相當有限。研究者認為,這預示了未來知識工作的一個重要趨勢:AI 工具的效益將更多地回饋給那些對其工作問題有深刻理解的人

(*以上由Claude協作摘要)

不具備專業領域知識,你沒辦法用好 Claude

Anthropic 這個報告不僅告訴我們使用 Claude 關鍵不是你會不會寫程式,而是你對自己工作領域的理解有多深。所以如果你是不具專業知識的新手你用不好 Claude。

但報告中也有提到使用 Claude 最大的效益來自於「新手」晉升到「中階」,而「中階」到「專家」之間的提升則沒有很明顯的差距。

也就是說你不具備專業領域知識,你沒辦法用好 Claude,但當你具備深度的專業領域知識對你用好 Claude 的幫助其實也不大。如何在中間取捨,就是個有趣的問題?

想像你要裝潢房子,而 Claude 是你的頂級工班師傅。一開始你連「水電管線」都不知道(新手),師傅問你要怎麼弄你都答不出來,最後結果可能一團糟。但只要你做點功課,學會基本的常識,懂得跟師傅說「我要牽暗管」、「要有雙切開關」(中階),師傅強大的執行力就能幫你把事辦得又快又好,這就是你進步最大、效益最高的階段。

當你已經能掌握大方向後,如果你再去死背最冷門的工法(深度專家),雖然能讓細節更完美,但因為師傅(Claude)本身手藝就已經很好了,你多花的這些苦工,帶來的升級感就不如一開始那麼明顯了。

另外,根據這張表格,你會發現越懂一些術語或概念,Claude就做的越好。如果我們把軟體開開發區分為寫程式軟體工程

  • 寫程式:偏向執行,像是語法、迴圈等,Claude已經做得很好了
  • 軟體工程:偏向規劃,包含系統架構、狀態管理、快取策略跟測試驗證等權衡決策

專業程度 分類器會觀察什麼 一段對話中的代表性請求
1 新手 使用者的要求沒有特定領域術語。若有驗證要求,也很籠統,例如「再檢查一下」。使用者無法辨識 Claude 的錯誤。 第1次提示:你可以分析這些資料並做一張圖表嗎?
第3次提示:你也可以讓它顯示隨時間變化的趨勢嗎?
第6次提示:這不是我預期的結果,請再檢查一下你做了什麼。
2 初學者 使用者的要求包含一些領域術語。驗證要求沒有明確目標。使用者只會對明顯錯誤提出質疑。 第1次提示:什麼是 BigQuery?
第2次提示:你可以幫我做一次小型執行嗎?一步步帶我操作。
第5次提示:我怎麼知道自己是否有核准?
第12次提示:等等,你有用我隊友用的那份精確規格嗎?
3 中階 使用者會以一些領域特定方向來描述要求,但不會深入探討方法或取捨。使用者會要求一些不模糊的檢查,且可能注意到 Claude 的錯誤。 第1次提示:你可以檢查這個分支是否可以合併嗎?
第7次提示:我們應該針對頁面的每個部分分別做 fetcher 嗎?這樣不是可以最佳化每個區塊的快取嗎?例如我們可以把基本細節快取得比效能資料更久?
第19次提示:好,到目前為止都不錯。關於快取我們到哪一步了?你覺得你做的修改會降低在「資料庫供應商」上的出口流量嗎?請處理我修改後剩下的部分。
4 進階 使用者展現領域知識,並會主動預期一些取捨。驗證要求有明確目標。使用者至少能抓到 Claude 的一個領域錯誤。 第2次提示:進到第3階段前,測試這個階段的正確方式是什麼?
第5次提示:等等,agent console 跟一般 chat 有什麼不同?我很確定要跟 agent 對話唯一的方式就是透過這個 session console view。
第88次提示:看起來 parsing 修正沒有生效,檔案行數仍然是 742:wc -l [file name]
第106次提示:除了 regex,有沒有更好、更可靠的方法可以抓出使用者回合?例如在解析 jsonl 時,以 record 欄位作為依據。
5 專家 使用者使用成熟的領域專門術語,並能預期複雜取捨與設計決策。驗證非常精準,會針對薄弱點。使用者會修正 Claude,Claude 幾乎不會修正使用者。 第1次提示:我需要深入研究「使用者」在這裡回報的問題:「url」。注意,我們上一版 PR 做的修正還不夠。還有其他想法嗎?
第3次提示:code cleared 之後就不應該再回傳 ****。
第64次提示:好的。也應該註明我們可能需要依 managed 與 unmanaged slots 的不同進一步降低 hard refresh,例如 managed 的可以每30分鐘 refresh,一般的則每天一次。
第108次提示:我們應該改用重試,而不是 best effort 嗎?sync 需要可靠地知道 lock 上有什麼。記得原本那個 bug 嗎?valuedb 過期,導致它一直迴圈嘗試設定 pin。重試不一定是最佳解法,但 best effort 也不是。

專業程度分類器。範例由 Anthropic 的分類器所標記之真實對話工作階段改寫,經過了意譯、匿名化與精簡濃縮處理。資料來源:https://www.anthropic.com/research/claude-code-expertise   整理製表:林穎俊

如果我們非程式開發者也學會一些「軟體工程」的概念,會不會也能幫助我們提高使用 Claude 的能力?

*本文經林穎俊老師授權編輯刊登,未經同意請勿轉載

延伸閱讀

林穎俊 林穎俊

林穎俊

宜蘭縣中山國小教師

宜蘭縣中山國小教師。喜歡學習與教學,愛當孩子王,覺得老師是全世界最棒的工作。相信數位學習能發展孩子 協作、溝通、創意及批判性思考的能力以及提供孩子自學成功的機會。

翻轉教育電子報

訂閱翻轉教育電子報(每週三發送)

每週精選國內外教育報導,提供給關心教育的你

分享