겉으로 보기에는 직관적인 방법이 있습니다. 모델이 잘못된 정보를 믿지 않게 하고 싶다면 학습 데이터에 “이것은 거짓이다”라고 명확히 쓰면 된다는 생각입니다. 하지만 새 연구는 모델이 부정 신호를 안정적으로 배우기보다, 잘못된 주장 자체를 흡수할 수 있음을 보여 줍니다.
이 현상은 개발자에게 중요합니다. 많은 AI 제품은 정책, 제한, 반례, 잘못된 예시, 안전 알림을 데이터에 넣고 모델이 스스로 “이렇게 하면 안 된다”고 이해하길 기대합니다. 하지만 모델이 그 주장이 부정되었다는 사실보다 언급된 주장 자체를 더 잘 기억한다면, 텍스트 경고만으로는 충분히 안전하지 않습니다.
문제: 부정문은 퓨즈가 아니다
사람은 “어떤 주장은 거짓이다”라는 문장을 읽으면 보통 주장과 참거짓 상태를 함께 기억합니다. 반면 모델의 학습 과정에서는 문장 속 핵심 개념과 서사적 흔적을 학습한 뒤, 나중에 다른 질문에서 그것을 사실처럼 출력할 수 있습니다.
이는 여러 흔한 방식에 영향을 줍니다.
- 많은 “나쁜 예시”로 모델을 fine-tuning 하는 방식.
- system prompt에 금지 사항을 많이 넣는 방식.
- 어떤 데이터가 오래되었거나 신뢰할 수 없는지 문서로 설명하는 방식.
- 모델이 반례에서 안전 경계를 스스로 추론하길 기대하는 방식.
이 방법들은 여전히 가치가 있지만, 유일한 방어선이 되어서는 안 됩니다.
미니 액션
RAG, fine-tuning, agent 평가를 하고 있다면 세 가지 점검을 추가하세요.
- 부정 사례를 따로 테스트하기: 잘못된 주장에 대한 변형 질문을 던져 모델이 거짓 정보를 사실로 받아들이지 않았는지 확인합니다.
- 구조화된 라벨 사용하기: 자연어 경고에만 의존하지 말고 가능하면
claim,status:false,evidence같은 파싱 가능한 필드를 사용합니다. - 출력 단계에서 검증하기: 고위험 사실에는 학습 시점의 알림만 믿지 말고 인용, 검증, refusal 규칙을 마련합니다.
결론은 단순합니다. 모델에게 “믿지 말라”고 말하는 것과 모델이 실제로 믿지 않는 법을 배웠다는 것은 다릅니다. 의사결정에 영향을 줄 수 있는 잘못된 정보에는 데이터 계층, 프롬프트 계층, 검증 계층의 다중 보호가 필요합니다.
참고 자료
- Ars Technica: LLMs believe false statements even after explicit warnings that they’re false — https://arstechnica.com/ai/2026/05/llms-believe-false-statements-even-after-explicit-warnings-that-t/
- arXiv: Negation Neglect: When models fail to learn negations in training — https://arxiv.org/abs/2605.13829
- arXiv HTML: Negation Neglect paper full text — https://arxiv.org/html/2605.13829v1
- Ars Technica: Why do LLMs make stuff up? New research peers under the hood — https://arstechnica.com/ai/2025/03/why-do-llms-make-stuff-up-new-research-peers-under-the-hood/



