Manipulating Feature Visualizations with Gradient Slingshots

Abstract

Feature Visualization (FV) is a widely used technique for interpreting concepts learned by Deep Neural Networks (DNNs), which synthesizes input patterns that maximally activate a given feature. Despite its popularity, the trustworthiness of FV explanations has received limited attention. We introduce Gradient Slingshots, a novel method that enables FV manipulation without modifying model architecture or significantly degrading performance. By shaping new trajectories in off-distribution regions of a feature's activation landscape, we coerce the optimization process to converge to a predefined visualization. We evaluate our approach on several DNN architectures, demonstrating its ability to replace faithful FVs with arbitrary targets. These results expose a critical vulnerability: auditors relying solely on FV may accept entirely fabricated explanations. To mitigate this risk, we propose a straightforward defense and quantitatively demonstrate its effectiveness.

PDF NeurIPS OpenReview Semantic Scholar

Cite

Text

Bareeva et al. "Manipulating Feature Visualizations with Gradient Slingshots." Advances in Neural Information Processing Systems, 2025.

Markdown

[Bareeva et al. "Manipulating Feature Visualizations with Gradient Slingshots." Advances in Neural Information Processing Systems, 2025.](https://mlanthology.org/neurips/2025/bareeva2025neurips-manipulating/)

BibTeX

@inproceedings{bareeva2025neurips-manipulating,
  title     = {{Manipulating Feature Visualizations with Gradient Slingshots}},
  author    = {Bareeva, Dilyara and Höhne, Marina MC and Warnecke, Alexander and Pirch, Lukas and Muller, Klaus Robert and Rieck, Konrad and Lapuschkin, Sebastian and Bykov, Kirill},
  booktitle = {Advances in Neural Information Processing Systems},
  year      = {2025},
  url       = {https://mlanthology.org/neurips/2025/bareeva2025neurips-manipulating/}
}