एक तरीका सहज लगता है: अगर आप नहीं चाहते कि मॉडल गलत जानकारी पर विश्वास करे, तो ट्रेनिंग डेटा में साफ़ लिख दें कि “यह गलत है।” लेकिन नई रिसर्च बताती है कि मॉडल फिर भी गलत दावे को ही सीख सकता है, और नकारात्मक संकेत को स्थिर रूप से नहीं सीखता।

यह डेवलपर्स के लिए महत्वपूर्ण है। कई AI उत्पाद नीतियाँ, सीमाएँ, उल्टे उदाहरण, गलत डेमो या सुरक्षा चेतावनियाँ डेटा में डालते हैं और उम्मीद करते हैं कि मॉडल खुद समझ जाएगा कि “ऐसा नहीं करना है।” लेकिन अगर मॉडल उस दावे को अधिक आसानी से याद रखता है जिसका उल्लेख हुआ, बजाय इसके कि उसे नकारा गया था, तो केवल टेक्स्ट चेतावनी पर्याप्त सुरक्षित नहीं है।

समस्या: नकारात्मक वाक्य सुरक्षा फ्यूज़ नहीं है

जब मनुष्य पढ़ते हैं कि “कोई दावा गलत है,” तो वे आम तौर पर दावा और उसकी सत्य स्थिति दोनों याद रखते हैं। मॉडल की ट्रेनिंग प्रक्रिया में, हालांकि, वाक्य के मुख्य concepts और narrative traces सीखे जा सकते हैं, और बाद में किसी अलग प्रश्न में वही बात तथ्य की तरह आउटपुट हो सकती है।

इससे कई सामान्य तरीकों पर असर पड़ता है:

  • बहुत सारे “गलत उदाहरणों” से मॉडल को fine-tuning करना।
  • system prompt में कई निषेध भर देना।
  • दस्तावेज़ों में यह समझाना कि कौन सा डेटा पुराना या अविश्वसनीय है।
  • उम्मीद करना कि मॉडल उल्टे उदाहरणों से सुरक्षा सीमा खुद निकाल लेगा।

इन तरीकों की उपयोगिता अभी भी है, लेकिन इन्हें अकेली रक्षा-पंक्ति नहीं माना जा सकता।

मिनी एक्शन

अगर आप RAG, fine-tuning या agent evaluation कर रहे हैं, तो तीन जाँच जोड़ें:

  1. नकारे गए मामलों को अलग से टेस्ट करें: गलत दावे के बदले हुए प्रश्न मॉडल से पूछें और देखें कि वह झूठी जानकारी को सच की तरह तो नहीं ले रहा।
  2. संरचित लेबल इस्तेमाल करें: केवल प्राकृतिक भाषा चेतावनी न लिखें; जहाँ संभव हो claim, status:false, evidence जैसे parseable fields इस्तेमाल करें।
  3. आउटपुट स्तर पर सत्यापन करें: उच्च-जोखिम तथ्यों के लिए citation, verification या refusal rules बनाएँ; केवल ट्रेनिंग समय की चेतावनी पर निर्भर न रहें।

निष्कर्ष सरल है: मॉडल से “इस पर विश्वास मत करो” कहना यह साबित नहीं करता कि उसने सचमुच न मानना सीख लिया है। निर्णयों को प्रभावित करने वाली किसी भी गलत जानकारी के लिए data layer, prompt layer और validation layer में कई स्तरों की सुरक्षा होनी चाहिए।

संदर्भ