겉으로 보기에는 직관적인 방법이 있습니다. 모델이 잘못된 정보를 믿지 않게 하고 싶다면 학습 데이터에 “이것은 거짓이다”라고 명확히 쓰면 된다는 생각입니다. 하지만 새 연구는 모델이 부정 신호를 안정적으로 배우기보다, 잘못된 주장 자체를 흡수할 수 있음을 보여 줍니다.

이 현상은 개발자에게 중요합니다. 많은 AI 제품은 정책, 제한, 반례, 잘못된 예시, 안전 알림을 데이터에 넣고 모델이 스스로 “이렇게 하면 안 된다”고 이해하길 기대합니다. 하지만 모델이 그 주장이 부정되었다는 사실보다 언급된 주장 자체를 더 잘 기억한다면, 텍스트 경고만으로는 충분히 안전하지 않습니다.

문제: 부정문은 퓨즈가 아니다

사람은 “어떤 주장은 거짓이다”라는 문장을 읽으면 보통 주장과 참거짓 상태를 함께 기억합니다. 반면 모델의 학습 과정에서는 문장 속 핵심 개념과 서사적 흔적을 학습한 뒤, 나중에 다른 질문에서 그것을 사실처럼 출력할 수 있습니다.

이는 여러 흔한 방식에 영향을 줍니다.

  • 많은 “나쁜 예시”로 모델을 fine-tuning 하는 방식.
  • system prompt에 금지 사항을 많이 넣는 방식.
  • 어떤 데이터가 오래되었거나 신뢰할 수 없는지 문서로 설명하는 방식.
  • 모델이 반례에서 안전 경계를 스스로 추론하길 기대하는 방식.

이 방법들은 여전히 가치가 있지만, 유일한 방어선이 되어서는 안 됩니다.

미니 액션

RAG, fine-tuning, agent 평가를 하고 있다면 세 가지 점검을 추가하세요.

  1. 부정 사례를 따로 테스트하기: 잘못된 주장에 대한 변형 질문을 던져 모델이 거짓 정보를 사실로 받아들이지 않았는지 확인합니다.
  2. 구조화된 라벨 사용하기: 자연어 경고에만 의존하지 말고 가능하면 claim, status:false, evidence 같은 파싱 가능한 필드를 사용합니다.
  3. 출력 단계에서 검증하기: 고위험 사실에는 학습 시점의 알림만 믿지 말고 인용, 검증, refusal 규칙을 마련합니다.

결론은 단순합니다. 모델에게 “믿지 말라”고 말하는 것과 모델이 실제로 믿지 않는 법을 배웠다는 것은 다릅니다. 의사결정에 영향을 줄 수 있는 잘못된 정보에는 데이터 계층, 프롬프트 계층, 검증 계층의 다중 보호가 필요합니다.

참고 자료