मॉडल को “यह गलत है” बताना जरूरी नहीं कि उसे न मानना सिखा दे

एक तरीका सहज लगता है: अगर आप नहीं चाहते कि मॉडल गलत जानकारी पर विश्वास करे, तो ट्रेनिंग डेटा में साफ़ लिख दें कि “यह गलत है।” लेकिन नई रिसर्च बताती है कि मॉडल फिर भी गलत दावे को ही सीख सकता है, और नकारात्मक संकेत को स्थिर रूप से नहीं सीखता।

यह डेवलपर्स के लिए महत्वपूर्ण है। कई AI उत्पाद नीतियाँ, सीमाएँ, उल्टे उदाहरण, गलत डेमो या सुरक्षा चेतावनियाँ डेटा में डालते हैं और उम्मीद करते हैं कि मॉडल खुद समझ जाएगा कि “ऐसा नहीं करना है।” लेकिन अगर मॉडल उस दावे को अधिक आसानी से याद रखता है जिसका उल्लेख हुआ, बजाय इसके कि उसे नकारा गया था, तो केवल टेक्स्ट चेतावनी पर्याप्त सुरक्षित नहीं है।

समस्या: नकारात्मक वाक्य सुरक्षा फ्यूज़ नहीं है

जब मनुष्य पढ़ते हैं कि “कोई दावा गलत है,” तो वे आम तौर पर दावा और उसकी सत्य स्थिति दोनों याद रखते हैं। मॉडल की ट्रेनिंग प्रक्रिया में, हालांकि, वाक्य के मुख्य concepts और narrative traces सीखे जा सकते हैं, और बाद में किसी अलग प्रश्न में वही बात तथ्य की तरह आउटपुट हो सकती है।

इससे कई सामान्य तरीकों पर असर पड़ता है:

बहुत सारे “गलत उदाहरणों” से मॉडल को fine-tuning करना।
system prompt में कई निषेध भर देना।
दस्तावेज़ों में यह समझाना कि कौन सा डेटा पुराना या अविश्वसनीय है।
उम्मीद करना कि मॉडल उल्टे उदाहरणों से सुरक्षा सीमा खुद निकाल लेगा।

इन तरीकों की उपयोगिता अभी भी है, लेकिन इन्हें अकेली रक्षा-पंक्ति नहीं माना जा सकता।

मिनी एक्शन

अगर आप RAG, fine-tuning या agent evaluation कर रहे हैं, तो तीन जाँच जोड़ें:

नकारे गए मामलों को अलग से टेस्ट करें: गलत दावे के बदले हुए प्रश्न मॉडल से पूछें और देखें कि वह झूठी जानकारी को सच की तरह तो नहीं ले रहा।
संरचित लेबल इस्तेमाल करें: केवल प्राकृतिक भाषा चेतावनी न लिखें; जहाँ संभव हो claim, status:false, evidence जैसे parseable fields इस्तेमाल करें।
आउटपुट स्तर पर सत्यापन करें: उच्च-जोखिम तथ्यों के लिए citation, verification या refusal rules बनाएँ; केवल ट्रेनिंग समय की चेतावनी पर निर्भर न रहें।

निष्कर्ष सरल है: मॉडल से “इस पर विश्वास मत करो” कहना यह साबित नहीं करता कि उसने सचमुच न मानना सीख लिया है। निर्णयों को प्रभावित करने वाली किसी भी गलत जानकारी के लिए data layer, prompt layer और validation layer में कई स्तरों की सुरक्षा होनी चाहिए।

संदर्भ

Ars Technica: LLMs believe false statements even after explicit warnings that they’re false — https://arstechnica.com/ai/2026/05/llms-believe-false-statements-even-after-explicit-warnings-that-t/
arXiv: Negation Neglect: When models fail to learn negations in training — https://arxiv.org/abs/2605.13829
arXiv HTML: Negation Neglect paper full text — https://arxiv.org/html/2605.13829v1
Ars Technica: Why do LLMs make stuff up? New research peers under the hood — https://arstechnica.com/ai/2025/03/why-do-llms-make-stuff-up-new-research-peers-under-the-hood/

समस्या: नकारात्मक वाक्य सुरक्षा फ्यूज़ नहीं है

मिनी एक्शन

संदर्भ

यह mini class साझा करें

संबंधित लेख

Microsoft 365 Copilot तेज़ और साफ़ दिखने लगे, तब असली जाँच आउटपुट संरचना की है

एजेंट के दौर में वेबसाइटों को मशीन-पठनीय दरवाज़ों की ज़रूरत है

जो मॉडल “मुझे पक्का नहीं पता” कहता है, वह एक और जवाब देने वाले मॉडल से ज़्यादा मूल्यवान है