只在錯誤資料旁寫「這是假的」，AI 還是可能當真

Larry

知識庫裡留著一份已作廢的退款政策，檔名也清楚寫了「舊版，請勿使用」。同事搜尋時看得懂這句警告，但接上 RAG 的客服助理可能只擷取到退款金額和期限，最後把舊規則寫進回覆。錯誤資料沒有消失，只是多了一句希望讀者別相信它的文字。

微調資料、評測案例和反例也有同樣風險。2026 年的「Negation Neglect」研究發現，即使訓練文件明確否定虛假主張，模型仍可能把主張本身學成事實。Ars Technica 報導的其中一項結果顯示，否定文件的 belief rate 達 88.6%；研究也指出，直接放在錯誤敘述附近的局部否定，通常比另外放一句警告穩定，但仍不能當成可靠防線。

問題不在於模型能不能看反例，而在於這些內容會不會沿著資料、檢索與輸出路徑，被當成可用事實送進真正的決策。

先看資料會流到哪裡

同一句「這是假的」，放在人類閱讀的低風險教材裡，和放在會自動回答客戶的知識庫裡，後果完全不同。先用資料的用途分級，比爭論警告文字夠不夠醒目更實際。

資料情境	文字警告是否足夠	還要補什麼
只供人閱讀的低風險教學反例	有機會足夠，但區隔必須清楚	明確標題、範例分類、人工覆核
RAG 知識庫含過期或撤回內容	不足	版本與有效期限、檢索過濾、回答附來源
fine-tuning 或 evaluation 資料含錯誤示範	不足	結構化狀態、針對否定的測試、拒答或降權規則
內容會影響客服承諾、醫療、法律、付款或權限	絕對不足	來源驗證、人工核准、輸出檢查與稽核紀錄

低風險教材可以保留反例，因為人類會連同版面和上下文一起讀。進入 RAG 後，文件可能被切成片段，警告與主張也可能在檢索時分開。進入微調後，團隊更難確認模型究竟記住否定關係，還是只提高了對那句主張的熟悉度。只要答案會觸發付款、修改權限或形成對外承諾，就不該把結果押在模型有沒有讀懂「不要相信」。

把防線放進三個位置

資料層要讓狀態可被系統讀取。 與其在段落旁加註「錯誤」，不如把內容拆成 claim、status:false、source、valid_until 等欄位。撤回資料應隔離或排除；若因評測需要保留，也要和可供回答的正式資料分開。這不是為了讓資料更漂亮，而是讓後續程式能依狀態處理。

檢索與測試層要驗證錯誤是否真的出不來。 RAG 在建立索引與取回片段時，都應過濾過期、撤回或低信任內容。測試不能只問原句，還要換人物、時間和說法，確認模型不會在改寫後重述同一個錯誤。若模型會操作工具，可參考讓 AI 寫程式前，先決定哪些地方要停下來檢查，把高風險結果卡在人工核准之前。

輸出層要限制錯誤造成的實際後果。 客服承諾、醫療、法律、付款與權限相關回答，至少要有來源引用、有效性檢查和人工確認。若後續動作可能只完成一半，還應先設計補償與復原方式；自動化流程跑到一半失敗，誰負責收拾？說明了為何「停止」之外還要知道怎麼收回已發生的變更。

三層不必一開始就做得一樣重。低風險內部教材或許只需清楚分區與抽查；會影響金錢、健康、權利或對外承諾的流程，則應採取隔離、測試、輸出限制和人工核准。真正要避免的，是把一句自然語言警告誤認成完整的安全機制。

AI 整理卡

把以下內容交給能讀取目前工作區、程式庫、專案或作業紀錄的代理。它應先唯讀檢查，不應直接修改資料或設定。

請從你目前可存取的工作區、程式庫、專案檔案或作業紀錄開始，以唯讀方式搜尋一個具體問題：找出一筆可能過期、已撤回、刻意作為反例，或旁邊只有「錯誤／不要使用」警告，卻仍可能被模型、fine-tuning 流程或 RAG 當成可用事實的內容。請引用檔名、欄位、紀錄或設定中的直接證據，並把「實際觀察」和「根據跡象推測」分開；找不到的資料標成「待確認」。

針對找到的第一個問題，依序檢查資料層是否有 claim、status:false、source、valid_until 或等效欄位，錯誤內容是否已隔離；再確認檢索或評測是否會排除它，以及是否有針對改寫問法的測試；最後檢查輸出是否要求來源、有效性驗證、拒答或人工核准。不要寫入檔案、重建索引、執行外部動作，也不要接觸帳號、付款、個資、醫療、法律或權限變更。

如果完全無法讀取任何相關內容，最多只問我一個精準問題，以取得可唯讀檢查的位置。最後只能給出「可繼續」「限縮試做」或「暫停」其中一個判定，列出支持判定的直接證據、仍待確認之處、一個現在可做且可逆的下一步，以及必須由人負責核准的安全界線。

用廚房裡的兩罐白色粉末理解

廚房裡兩罐相似白色粉末不能只靠警告紙條區分，人物停手並改用不同容器、分開存放及人工確認的四格漫畫

阿哲在廚房面對兩罐外觀相近的白色粉末，一時無法確定該拿哪一罐。
他在舀取前先停下來，因為貼在罐上的小提醒很容易被忽略。
阿哲把兩種粉末換進外觀明顯不同的容器，並分開位置存放。
再由另一個人確認內容物，提醒我們隔離加上人工確認，才能避免不良資料混進模型。

參考來源

arXiv：Negation Neglect: When Models Fail to Learn Negations in Training — https://arxiv.org/abs/2605.13829（2026-05-19）
Ars Technica：LLMs believe false statements even after explicit warnings that they’re false — https://arstechnica.com/ai/2026/05/llms-believe-false-statements-even-after-explicit-warnings-that-theyre-false/（2026-05-21）
ACL Anthology：García-Ferrero et al., “This is not a Dataset: A Large Negation Benchmark to Challenge Large Language Models,” EMNLP 2023，DOI 10.18653/v1/2023.emnlp-main.531 — https://aclanthology.org/2023.emnlp-main.531/（2023-12）
ACL Anthology：Varshney et al., “Investigating and Addressing Hallucinations of LLMs in Tasks Involving Negation,” Proceedings of TrustNLP 2025，DOI 10.18653/v1/2025.trustnlp-main.37 — https://aclanthology.org/2025.trustnlp-main.37/（2025-05）

先看資料會流到哪裡

把防線放進三個位置

AI 整理卡

用廚房裡的兩罐白色粉末理解

分享這篇微課

參考來源

延伸閱讀

把 AI 接進工作流前，先定義什麼時候要停下來問人

網站需要給 AI 用的入口嗎？

AI 找到更快的程式碼，團隊拿什麼判斷它能不能用？