一個看似直覺的做法是:如果不希望模型相信錯誤資訊,就在訓練資料裡明確寫「這是假的」。但新研究指出,模型可能仍會吸收錯誤主張本身,而沒有穩定學會否定訊號。

這個現象對開發者很重要。很多 AI 產品會把政策、限制、反例、錯誤示範或安全提醒丟進資料裡,希望模型自行理解「不要這樣做」。但如果模型更容易記住被提到的主張,而不是記住它被否定,單靠文字警告就不夠安全。

痛點:否定句不是保險絲

人類讀到「某說法是假的」通常會把真假狀態一起記住。模型的訓練過程卻可能把句子中的關鍵概念與敘事痕跡學進去,之後在不同問題裡又把它當成事實輸出。

這會影響幾種常見做法:

  • 用大量「錯誤示範」微調模型。
  • 在 system prompt 裡塞很多禁止事項。
  • 用文件說明哪些資料已過期或不可信。
  • 希望模型自行從反例中推論安全邊界。

這些方法仍有價值,但不能當作唯一防線。

微課解法

若你在做 RAG、微調或 agent 評估,可以加三個檢查:

  1. 把否定案例拆開測:問模型錯誤主張的變形問題,確認它沒有把假資訊當真。
  2. 用結構化標籤:不要只寫自然語言警告,盡量用 claimstatus:falseevidence 這類可解析欄位。
  3. 在輸出端驗證:對高風險事實建立引用、查證或 refusal 規則,不要只靠訓練時的提醒。

結論很簡單:告訴模型「不要相信」不等於它真的學會不信。凡是會影響決策的錯誤資訊,都應該有資料層、提示層與驗證層的多重保護。

參考來源