一個看似直覺的做法是:如果不希望模型相信錯誤資訊,就在訓練資料裡明確寫「這是假的」。但新研究指出,模型可能仍會吸收錯誤主張本身,而沒有穩定學會否定訊號。
這個現象對開發者很重要。很多 AI 產品會把政策、限制、反例、錯誤示範或安全提醒丟進資料裡,希望模型自行理解「不要這樣做」。但如果模型更容易記住被提到的主張,而不是記住它被否定,單靠文字警告就不夠安全。
痛點:否定句不是保險絲
人類讀到「某說法是假的」通常會把真假狀態一起記住。模型的訓練過程卻可能把句子中的關鍵概念與敘事痕跡學進去,之後在不同問題裡又把它當成事實輸出。
這會影響幾種常見做法:
- 用大量「錯誤示範」微調模型。
- 在 system prompt 裡塞很多禁止事項。
- 用文件說明哪些資料已過期或不可信。
- 希望模型自行從反例中推論安全邊界。
這些方法仍有價值,但不能當作唯一防線。
微課解法
若你在做 RAG、微調或 agent 評估,可以加三個檢查:
- 把否定案例拆開測:問模型錯誤主張的變形問題,確認它沒有把假資訊當真。
- 用結構化標籤:不要只寫自然語言警告,盡量用
claim、status:false、evidence這類可解析欄位。 - 在輸出端驗證:對高風險事實建立引用、查證或 refusal 規則,不要只靠訓練時的提醒。
結論很簡單:告訴模型「不要相信」不等於它真的學會不信。凡是會影響決策的錯誤資訊,都應該有資料層、提示層與驗證層的多重保護。
參考來源
- Ars Technica:LLMs believe false statements even after explicit warnings that they’re false — https://arstechnica.com/ai/2026/05/llms-believe-false-statements-even-after-explicit-warnings-that-t/
- arXiv:Negation Neglect: When models fail to learn negations in training — https://arxiv.org/abs/2605.13829
- arXiv HTML:Negation Neglect paper full text — https://arxiv.org/html/2605.13829v1
- Ars Technica:Why do LLMs make stuff up? New research peers under the hood — https://arstechnica.com/ai/2025/03/why-do-llms-make-stuff-up-new-research-peers-under-the-hood/



