Un enfoque parece intuitivo: si no quieres que un modelo crea información falsa, escribe claramente “esto es falso” en los datos de entrenamiento. Pero una nueva investigación señala que el modelo puede absorber la afirmación falsa en sí, sin aprender de forma estable la señal de negación.

Esto es importante para desarrolladores. Muchos productos de IA ponen políticas, límites, contraejemplos, demostraciones incorrectas o recordatorios de seguridad dentro de los datos, esperando que el modelo entienda por sí solo “no hagas esto”. Pero si el modelo recuerda con más facilidad la afirmación mencionada que el hecho de que fue negada, una advertencia en texto no es una defensa suficiente.

Punto de dolor: la negación no es un fusible

Cuando una persona lee “cierta afirmación es falsa”, normalmente recuerda tanto la afirmación como su estado de verdad. En cambio, durante el entrenamiento de un modelo, este puede aprender los conceptos clave y las huellas narrativas de la frase, y luego volver a emitirlos como hechos en una pregunta distinta.

Esto afecta varias prácticas comunes:

  • Ajustar un modelo con muchos “malos ejemplos”.
  • Llenar el system prompt con muchas prohibiciones.
  • Usar documentación para explicar qué datos están vencidos o no son confiables.
  • Esperar que el modelo infiera por sí solo los límites de seguridad a partir de contraejemplos.

Estos métodos siguen teniendo valor, pero no pueden ser la única línea de defensa.

Mini acción

Si trabajas en RAG, fine-tuning o evaluación de agents, añade tres comprobaciones:

  1. Prueba los casos negados por separado: haz preguntas variantes sobre la afirmación falsa y confirma que el modelo no trata la información falsa como verdadera.
  2. Usa etiquetas estructuradas: no dependas solo de advertencias en lenguaje natural; cuando sea posible, usa campos analizables como claim, status:false y evidence.
  3. Valida en la capa de salida: para hechos de alto riesgo, crea reglas de citas, verificación o refusal, en lugar de confiar solo en los recordatorios del entrenamiento.

La conclusión es simple: decirle a un modelo “no creas esto” no significa que realmente haya aprendido a no creerlo. Cualquier información falsa que pueda afectar decisiones debería tener protección en múltiples capas: datos, prompts y validación.

Referencias