為什麼 senior 工程主管也擋不住 AI 寫 code 失控
10 年經驗的 senior 工程主管也擋不住 AI 寫 code 失控 — 不是專業不夠,是 review 人力不可能 scale。harness 是 forcing function。
10 年經驗的 senior 工程主管也擋不住 AI 寫 code 失控 — 不是專業不夠,是 review 人力不可能 scale。harness 是 forcing function。
團隊用 Cursor + Claude Code 想自己做 harness,常踩 3 個結構性坑:rule 寫錯地方、no project memory、AI 當自己 reviewer。我在客戶現場常見的。
為什麼你的 AI Agent 跑不進正式環境,答案不在模型,在 Harness。我在台灣中小軟體公司現場看到的兩條死路、四個判準,以及為什麼 fat skills 必須是你的。
Claude 4.5 在自己生的 preference pair 上 fine-tune 後,human pref score 反而掉 2.4 個百分點。
關鍵不是「prompt 寫錯」,是 internal eval 沒測到 ship 後的 user task。