誤ったデータをAIに渡す前に、「これは偽」と貼るだけで済ませない

Larry

社内のナレッジベースに、失効した返金規定が残っている。ファイル名には「旧版・使用禁止」とあるため、人がフォルダを見れば間違いに気づきやすい。だが、RAGを使う顧客対応AIが返金額の段落だけを取り出せば、警告を落としたまま古い規定を回答に使うおそれがある。

同じ問題は、微調整や評価用の反例にも起こる。2026年の研究「Negation Neglect」では、虚偽の主張を明示的に否定した文書で微調整しても、モデルがその主張を真実として学ぶ場合が示された。Ars Technicaが紹介した結果には、否定文書に対するbelief rateが88.6％に達した例もある。主張のすぐ近くに置く局所的な否定は、離れた警告文より安定していたが、それだけで本番運用の安全を担保できるわけではない。

反例を一切見せないことが解決策なのではない。見るべきなのは、そのデータが学習、検索、出力を通り、現実の判断材料として使われる可能性である。

用途と影響から危険度を分ける

人だけが読む教材と、自動回答に使う検索対象では、同じ警告文でも役割が異なる。まず、情報がどこへ流れ、警告が無視されたときに何が起こるかを整理する。

データの状況	文章による警告で足りるか	追加すべき対策
人だけが読む低リスクの教材用反例	区分が明確なら足りる場合もある	明確な見出し、例の分類、人による確認
RAGに期限切れ・撤回済みの内容がある	足りない	版と有効期限、検索フィルタ、出典表示
微調整・評価データに誤った例がある	足りない	構造化した状態、否定に特化したテスト、拒否・順位低下の規則
顧客への約束、医療、法務、支払い、権限に影響する	まったく足りない	出典確認、人の承認、出力検査、監査記録

人は見出し、周囲の説明、文書の履歴をまとめて読める。一方、検索では文書が断片化され、主張と警告が別々になることがある。微調整の場合、モデルが否定関係を学んだのか、誤った主張への馴染みだけを強めたのかも見極めにくい。支払い、アクセス権、対外的な約束に結びつくなら、「人には警告が明確に見えた」という説明は制御にならない。

三つの境界で誤情報を止める

データの境界では、状態を機械が判別できる形にする。 本文の脇に「誤り」と書くだけでなく、claim、status:false、source、valid_untilなどの項目を持たせる。撤回済みの資料は隔離または除外し、評価のために残す反例は、回答の根拠にできる正式データと分けて管理する。

検索・テストの境界では、実際に何が再浮上するかを確かめる。 索引作成時と検索時の両方で、期限切れ、撤回済み、信頼度の低い資料を除外する。元の質問を一度試すだけでは足りない。人物、日付、表現を変え、同じ誤情報を組み立て直さないか確認する。検索結果からツール操作まで進む仕組みなら、AIエージェントにコードを任せる前に、タスクへチェックポイントを入れるのように、人の承認まで高リスク操作を止める地点も必要である。

出力の境界では、誤りが現実に与える影響を限定する。 顧客への約束、医療、法律、支払い、権限に関する回答には、出典、有効性の確認、人による承認を組み込む。途中まで処理された後に失敗する可能性があるなら、停止ボタンだけでは不十分である。自動化が途中で失敗したら、誰が後始末をするのかで扱うように、実行前から担当者と補償処理を決めておく必要がある。

必要な強度は用途によって変わる。低リスクの社内教材なら、明確な分離と抜き取り確認で足りることもある。金銭、健康、権利、アクセス、対外的な約束に関わるなら、隔離、狙いを定めた評価、出力制限、人の承認まで必要になる。避けるべきなのは誤った例そのものではなく、人向けの注意書きを機械向けの安全機構と取り違えることである。

AI整理カード

現在の作業領域、リポジトリ、プロジェクト、運用記録を参照できるエージェントに、以下を渡す。最初の調査は読み取り専用とし、データや設定を変更させない。

現在アクセスできる作業領域、リポジトリ、プロジェクトファイル、運用記録から調査を始めること。読み取り専用で、期限切れ、撤回済み、意図的な誤り、または反例として保存された内容のうち、モデル、微調整処理、RAGが利用可能な事実として扱いかねないものを一件だけ特定する。パス、項目、記録、設定などの直接証拠を引用し、「観察できた事実」と「証拠からの推測」を分ける。不明な値は「要確認」とする。

特定した一件について、まずデータ側に claim、status:false、source、valid_until または同等の機械可読な状態があるか、誤情報が隔離されているかを調べる。次に、検索や評価の除外条件と、言い換えた質問を含むテストを確認する。その後、出力時の出典表示、有効性確認、回答拒否、人の承認条件を調べる。ファイルの書き換え、索引の再構築、外部操作、アカウント・支払い・個人情報・医療・法律・権限の変更は行わないこと。

関連資料をまったく参照できない場合に限り、読み取り専用で確認できる場所を得るための質問を一つだけ行う。最後の判定は「続行」「限定試行」「停止」のいずれか一つとし、根拠となる直接証拠、要確認事項、今すぐ実施できる可逆的な次の一手、人の担当者が承認すべき安全上の境界を示すこと。

台所の白い粉で考える

台所で似た白い粉を前にした美咲が手を止め、容器を替えて別々に保管し、家族と中身を確認する四コマ漫画

美咲は台所でよく似た二つの容器に入った白い粉を前にし、どちらを選ぶべきか迷う。
小さな注意書きは見落としかねないため、美咲は粉をすくう前に手を止める。
美咲は粉を見た目の異なる容器へ移し、置き場所も分けて保管する。
最後に別の人が中身を確かめ、分離と人の確認を重ねることが不良データの混入を防ぐ手掛かりであると示す。

参考文献

arXiv：Negation Neglect: When Models Fail to Learn Negations in Training — https://arxiv.org/abs/2605.13829（2026-05-19）
Ars Technica：LLMs believe false statements even after explicit warnings that they’re false — https://arstechnica.com/ai/2026/05/llms-believe-false-statements-even-after-explicit-warnings-that-theyre-false/（2026-05-21）
ACL Anthology：García-Ferrero et al., “This is not a Dataset: A Large Negation Benchmark to Challenge Large Language Models,” EMNLP 2023、DOI 10.18653/v1/2023.emnlp-main.531 — https://aclanthology.org/2023.emnlp-main.531/（2023-12）
ACL Anthology：Varshney et al., “Investigating and Addressing Hallucinations of LLMs in Tasks Involving Negation,” Proceedings of TrustNLP 2025、DOI 10.18653/v1/2025.trustnlp-main.37 — https://aclanthology.org/2025.trustnlp-main.37/（2025年5月）

用途と影響から危険度を分ける

三つの境界で誤情報を止める

AI整理カード

台所の白い粉で考える

このミニクラスを共有

参考文献

関連する記事

AIをワークフローに入れる前に、止まるべき場面を決める

サイトにAI用の入口は必要？まずこの表で判断する

AIにコードを最適化させる前に、合格条件を実行可能な形で書けるか