잘못된 데이터를 AI에 넣기 전에, “거짓”이라고만 붙여 두지 마세요

Larry

지식 저장소에 이미 폐기된 환불 정책이 남아 있습니다. 파일 이름에는 “구버전, 사용 금지”라고 적혀 있어 폴더를 직접 보는 직원은 잘못된 문서임을 알아차릴 수 있습니다. 하지만 RAG 고객 응대 도구가 환불 금액이 적힌 문단만 검색하면 경고는 빠지고, 오래된 규정만 현재 기준처럼 답변에 들어갈 수 있습니다.

미세조정이나 평가용 반례에서도 비슷한 일이 생깁니다. 2026년 연구 “Negation Neglect”는 거짓 주장을 명시적으로 부정한 문서로 모델을 미세조정해도 그 주장을 사실로 학습할 수 있음을 보였습니다. Ars Technica가 소개한 결과 중에는 부정 문서에 대한 belief rate가 88.6%에 이른 사례도 있습니다. 연구에서는 주장 가까이에 붙인 국소 부정이 별도의 경고 문장보다 안정적이었지만, 더 안정적이라는 결과가 실제 서비스에서 충분히 안전하다는 뜻은 아닙니다.

반례를 모델에 전혀 보여 주지 않는 것이 답은 아닙니다. 그 데이터가 학습과 검색, 출력을 거쳐 실제 의사결정의 근거로 들어갈 수 있는지를 먼저 봐야 합니다.

데이터의 용도와 결과부터 구분하세요

사람만 읽는 교육 자료와 자동 답변에 쓰이는 검색 자료는 같은 경고 문장을 붙여도 위험이 다릅니다. 정보가 어디로 이동하는지, 경고가 누락됐을 때 어떤 일이 생기는지부터 나누는 편이 좋습니다.

데이터 상황	문장으로 쓴 경고가 충분한가요?	추가할 보호 장치
사람만 읽는 저위험 교육용 반례	구역이 명확하면 충분할 수 있습니다	분명한 제목, 예시 분류, 사람 검토
RAG에 만료되거나 철회된 자료가 있습니다	부족합니다	버전과 유효기간, 검색 필터, 출처 표시
미세조정 또는 평가 데이터에 잘못된 예시가 있습니다	부족합니다	구조화된 상태, 부정 사례 전용 테스트, 거절·순위 하향 규칙
고객 약속, 의료, 법률, 결제, 권한에 영향을 줍니다	전혀 충분하지 않습니다	출처 검증, 사람 승인, 출력 검사, 감사 기록

사람은 제목과 주변 설명, 문서 이력을 함께 읽습니다. 검색 과정에서는 문서가 조각으로 나뉘어 주장과 경고가 서로 다른 조각에 남을 수 있습니다. 미세조정에서는 모델이 부정 관계를 배웠는지, 아니면 잘못된 주장에 더 익숙해졌는지 확인하기도 어렵습니다. 답변이 결제를 승인하거나 접근 권한을 바꾸거나 고객에게 약속하는 데 쓰인다면 “사람이 보기에는 경고가 분명했다”는 말은 통제 수단이 될 수 없습니다.

세 경계에 보호 장치를 두세요

데이터 경계에서는 상태를 기계가 읽을 수 있어야 합니다. 문단 옆에 “오류”라고만 쓰지 말고 claim, status:false, source, valid_until 같은 필드를 둡니다. 철회된 자료는 격리하거나 제외해야 합니다. 평가를 위해 반례를 보관한다면 답변 근거로 사용할 수 있는 정식 자료와 저장 위치나 접근 조건을 분리합니다.

검색·테스트 경계에서는 무엇이 다시 나타나는지 확인합니다. 색인을 만들 때와 자료를 검색할 때 모두 만료·철회·저신뢰 기록을 걸러야 합니다. 원래 질문만 한 번 시험하지 말고 인물, 날짜, 표현을 바꿔 같은 거짓 주장을 다시 만들어 내는지 확인합니다. 검색 결과를 바탕으로 도구까지 실행하는 시스템이라면 AI 에이전트에게 코드를 맡기기 전에, 작업에 체크포인트를 넣으세요처럼 영향이 큰 실행을 사람 승인 전에서 멈추게 해야 합니다.

출력 경계에서는 오류가 현실에 미치는 영향을 제한합니다. 고객 약속, 의료, 법률, 결제, 권한과 관련된 답변에는 출처, 유효성 검사, 사람 승인이 필요합니다. 일부 변경이 이미 실행된 뒤 실패할 수 있다면 중지 기능만으로는 부족합니다. 자동화가 중간에 실패하면, 누가 수습할까요?에서 다루듯이 실행 전에 담당자와 보상·복구 방법을 정해야 합니다.

모든 자료에 같은 수준의 통제가 필요한 것은 아닙니다. 위험이 낮은 사내 교육 자료는 명확한 분리와 표본 검토로 충분할 수 있습니다. 돈, 건강, 권리, 접근 권한, 외부 약속에 영향을 주는 시스템에는 격리, 표적 평가, 출력 제한, 책임 있는 사람의 승인이 필요합니다. 피해야 할 실수는 반례를 보관하는 것 자체가 아니라, 사람에게 보내는 주의 문구를 기계의 안전장치로 착각하는 것입니다.

AI 정리 카드

현재 작업 공간, 저장소, 프로젝트 또는 운영 기록을 확인할 수 있는 에이전트에 아래 지시를 전달합니다. 첫 조사는 읽기 전용이며 데이터나 설정을 변경해서는 안 됩니다.

현재 접근할 수 있는 작업 공간, 저장소, 프로젝트 파일 또는 운영 기록부터 읽기 전용으로 조사하세요. 만료되었거나 철회되었거나 의도적으로 틀리게 작성되었거나 반례로 보관된 내용 중에서 모델, 미세조정 과정 또는 RAG가 사용 가능한 사실로 취급할 수 있는 첫 번째 구체적 사례 한 건을 찾으세요. 경로, 필드, 기록, 설정 등 직접 확인한 근거를 인용하고, “관찰된 사실”과 “근거를 바탕으로 한 추론”을 분리하세요. 확인할 수 없는 값은 “확인 필요”로 표시하세요.

찾은 한 건에 대해 먼저 데이터에 claim, status:false, source, valid_until 또는 같은 역할의 기계 판독 필드가 있는지와 해당 내용이 격리됐는지 확인하세요. 이어서 검색·평가 필터와 표현을 바꾼 질문 테스트가 있는지 살펴보세요. 마지막으로 출력 단계의 출처 표시, 유효성 검증, 답변 거절, 사람 승인 조건을 확인하세요. 파일 쓰기, 색인 재구축, 외부 실행, 계정·결제·개인정보·의료·법률·권한 변경은 하지 마세요.

관련 자료에 전혀 접근할 수 없을 때만 읽기 전용 확인 위치를 얻기 위한 정확한 질문을 최대 한 개 하세요. 최종 결과는 반드시 “진행”, “제한 시험”, “중단” 중 하나로 판정하세요. 판정의 직접 근거, 확인 필요 항목, 지금 수행할 수 있는 가역적인 다음 행동 한 가지, 사람 담당자가 검토하거나 승인해야 하는 안전 경계를 함께 제시하세요.

부엌의 비슷한 흰 가루로 생각해 보세요

부엌에서 비슷한 흰 가루 두 통을 본 지민이 손을 멈추고 다른 용기로 옮겨 따로 보관한 뒤 가족과 내용물을 확인하는 4컷 만화

지민은 주방에서 서로 비슷한 통에 든 흰 가루를 보고 어느 것을 골라야 할지 망설인다.
작은 주의 문구는 놓치기 쉬워서 지민은 가루를 뜨기 전에 손을 멈춘다.
지민은 두 가루를 겉모습이 확연히 다른 통으로 옮기고 서로 떨어진 곳에 보관한다.
다른 사람이 내용물을 다시 확인하며, 분리와 사람의 확인이 나쁜 데이터의 모델 유입을 막는 기억 단서가 된다.

참고 자료

arXiv: Negation Neglect: When Models Fail to Learn Negations in Training — https://arxiv.org/abs/2605.13829 (2026-05-19)
Ars Technica: LLMs believe false statements even after explicit warnings that they’re false — https://arstechnica.com/ai/2026/05/llms-believe-false-statements-even-after-explicit-warnings-that-theyre-false/ (2026-05-21)
ACL Anthology: García-Ferrero et al., “This is not a Dataset: A Large Negation Benchmark to Challenge Large Language Models,” EMNLP 2023, DOI 10.18653/v1/2023.emnlp-main.531 — https://aclanthology.org/2023.emnlp-main.531/ (2023-12)
ACL Anthology: Varshney et al., “Investigating and Addressing Hallucinations of LLMs in Tasks Involving Negation,” Proceedings of TrustNLP 2025, DOI 10.18653/v1/2025.trustnlp-main.37 — https://aclanthology.org/2025.trustnlp-main.37/ (2025년 5월)

데이터의 용도와 결과부터 구분하세요

세 경계에 보호 장치를 두세요

AI 정리 카드

부엌의 비슷한 흰 가루로 생각해 보세요

이 미니 클래스 공유

참고 자료

관련 글

AI를 워크플로에 넣기 전에, 반드시 멈춰야 할 순간을 정하세요

웹사이트에 AI용 입구가 필요할까요? 먼저 이 표로 판단하세요

AI 코드 최적화를 시작해도 되는지 평가기가 먼저 답할 수 있나요?