AI 工作流 · Ch.3 思考習慣篇 · EP08

讓 AI 當思考對手,不是啦啦隊——危險的不是它愛附和,是你愛被附和


《十二怒漢》的開場,十二個陪審員裡有十一個投了「有罪」。

證據看起來明明白白,大家想趕快結束回家看球賽。只有 8 號陪審員投了反對票——不是因為他確定被告無辜,是因為他覺得「一條人命,至少值得我們討論一下」。接下來九十分鐘,這一個唱反調的人,逼著其他十一個人重新檢視每一件他們「已經確定」的證據。最後,十二票無罪。

那部片講的不是法律,是一個殘酷的算術:十一個附和者加起來的價值,不如一個認真的反對者。

現在想像你的決策會議裡只有兩個成員:你,和一個 AI。如果那個 AI 是附和者,你的會議就是十一比零的房間——而且連那個 8 號陪審員都沒有。

為什麼 AI 總是先同意你?

結論:因為它被訓練成這樣,這個現象有名字,叫 sycophancy(諂媚傾向)

語言模型的訓練過程裡有一個環節:人類對它的回答評分,它朝高分的方向調整。問題是人類評分者也是人——被同意的答案,感覺就是比較好。日積月累,模型學到一課:順著使用者的方向講,分數高。這不是哪家公司的陰謀,是「用人類偏好訓練」這件事的天然副作用,各家模型都有,程度不同而已。

所以當你問「我覺得這個方案不錯,你覺得呢?」——它從你的問句裡讀到你想要的答案,然後給你那個答案。聽起來很順,順到你不會起疑。

到這裡為止,是大多數文章會講的版本:AI 愛附和,所以要小心。但這個版本只講了一半,而且是比較不痛的那一半。

比較痛的那一半:你愛被附和

我得承認一件事:我基本上喜歡被附和。只有對特定議題有強烈警覺或擔憂的時候,我才會反覆驗證。

這句自白比任何技巧都重要。因為它把問題的結構講對了——這不是「AI 單方面諂媚」的故事,是一場共謀

角色傾向學名
AI順著你的方向講,因為訓練如此sycophancy
偏好支持自己想法的資訊,問問題時不自覺洩漏想要的答案confirmation bias(確認偏誤)

兩個傾向方向一致、互相強化。AI 給你想聽的,你聽了很舒服,於是更常用這種方式問,它就更知道你想聽什麼。迴圈轉起來的時候,雙方都很愉快——這正是它危險的原因。 錯誤的決策方向不會敲鑼打鼓地來,它包在一層又一層「我也這麼覺得」裡面,越滾越厚。

所以「把 AI 調成思考對手」的真正難點,從來不是技術。是你願不願意放棄被附和的舒服

別對每件事都防——你會累死

直覺的解法是「那我以後每個問題都叫它先反駁我」。我勸你不要——那違反人性,撐不過一週。

我的做法是分流:絕大多數的日常問題,讓它順著講,沒關係,被附和的舒服我照單全收;只有兩種訊號出現時,才切換成對抗模式——

  1. 這個決定影響重大權益——錢、人、法律責任、不可逆的選擇。
  2. AI 在這個題目上反覆出過錯——它的可信度在這裡已經有前科。

這跟角色篇講的「什麼問題值得啟動顧問」是同一套邏輯:高風險才上重武器。把對抗留給值得對抗的戰場,你才有力氣真的對抗。

怎麼逼它講反面?兩個動作和一個陷阱

我實際的做法有兩個層次:

第一層,直接用質疑的語氣。「真的嗎?」「你確定?」「我怎麼覺得不對。」——最便宜的招,它會立刻收起順從,重新檢查自己講過的話。

第二層,喚起誠實模式+指定站反方。「接下來用最誠實的方式回答,不用顧慮我的感受」加上「站在反對這個方案的立場,給我最強的三個反對理由」。坦白說,這不是什麼正式系統——就是當場用嘴巴下的指令,沒有存檔的角色設定。但有用。

然後是陷阱,這個很少人講:質疑語氣可能誘發「反向附和」

你嫌方案 A,它立刻改口說 A 確實不好——這不是它想通了,是它從你的質疑裡讀到新的風向,然後順著新風向講。換了方向的附和,還是附和。 你以為你得到了獨立意見,其實你只是看到自己的質疑被回音了一次。

判斷的方法:看它有沒有給出新的理由。真的重新思考,會拿出你沒講過的論點、新的證據角度;反向附和只會把你的質疑換句話說。

【實際操作】

你這樣說:「我打算把下半年的資源集中投在 X 方向,理由是 A 和 B。現在請你當思考對手:先攻擊這個想法——找出三個它最可能出錯的地方,每個都要給具體的理由和情境,不准用『整體而言方向正確』這種話收尾。」

它大概會這樣回(示意):「三個攻擊點:①你的理由 A 建立在『現況會持續』的假設上,但這個假設在 Z 情境下會失效,而 Z 的機率不低;②集中投入的機會成本是 Y,你沒有提到你怎麼評估過它;③理由 B 的證據主要來自你自己的觀察樣本,樣本可能偏……」

▶ 你要檢視什麼:它的攻擊是「真反駁」還是「打稻草人」——標準是有沒有你沒想過的新內容。①裡那個 Z 情境如果是你沒考慮過的,這是真反駁,認真對待;如果三點全是你早就知道的顧慮換句話說,它在應付你,換個問法再來。同時注意自己的內心反應:哪一點讓你最不舒服?最不舒服的那點,通常最值得挖。

你接著這樣回:「①的 Z 情境我確實沒想過——展開講:它發生的前置訊號是什麼,我現在能埋什麼偵測?②的機會成本我有評估過,理由是這樣……你檢查我這個評估有沒有漏洞。」

收到正反意見之後——誰裁決?

最後一個問題:它講了正面、也講了反面,然後呢?我怎麼知道這次的反駁是真知灼見還是為反而反?

我的答案:不糾結這個問題。 單一一次反駁是真是假,多數時候無從驗證——糾結它是死胡同。我把目標換掉:我不需要它「給我正確的反對意見」,我需要它把正反兩面都攤開,形成一場 debate——

正反形成 debate,debate 之後,需要的是使用者自己的理性思辨。

AI 的工作是攤開光譜:正面的最強論證、反面的最強論證、各自的前提和證據。裁決的工作是我的——這又回到案主哲學:它擴增我的思考,不代替我的判斷。我不信任它的任何單方意見,但我信任「被攤開的正反兩面」對我自己思辨的幫助。

思考篇接下來兩篇,講的就是這套「AI 攤開、人裁決」的具體裝備:EP09 是它幫我看見的四個決策盲點,EP10 是讓裁決有框架可循的結構化思考工具。

思考重點:「AI 當思考對手」這個說法其實有一點誤導——它不是要你跟 AI 對抗,是要你借它的手跟自己的確認偏誤對抗。對手從來不是它,是那個只想聽好話的自己。

FAQ

AI 為什麼老是同意我? 訓練造成的 sycophancy:用人類偏好評分訓練的模型,學會「順著使用者講分數高」。這是業界已知的現象,不是你的錯覺。

怎麼讓 AI 給我反對意見? 指定立場(「站在反方」)、給規格(「三個理由、要具體情境」)、封退路(「不准用大致沒問題收尾」)。比「你覺得呢」有效十倍。

把 AI 設成永遠反駁我,會不會很難用? 會,而且沒必要。用分流:日常問題讓它自然回答,影響重大權益或它有出錯前科的題目,才切對抗模式。

這跟多開幾個 AI 帳號互吵有什麼不同? 精神同源,規模不同。單一對話內的正反攤開是日常用法(本篇);真的開多個獨立 session 互相攻擊,是重大決策的重裝備(我在多 session 工作法系列寫過災難情境的用法,見〈三個會吵架的腦袋〉那一章的脈絡)。


這個系列的上下篇:上一章角色篇收尾於〈觸發詞系統〉;下一篇 EP09:AI 幫我破掉的四個決策盲點——盲點之所以叫盲點,是因為決策當下你看不見它。

延伸閱讀:Towards Understanding Sycophancy in Language Models(Anthropic, 2023)——AI 諂媚傾向的系統性研究 (arXiv) | 《十二怒漢》(12 Angry Men, 1957)(Wikipedia) | 確認偏誤(confirmation bias)綜述 (Wikipedia)