Shavit, Nir N

9 publications

ICLR 2026 Learning to Interpret Weight Differences in Language Models Avichal Goel, Yoon Kim, Nir N Shavit, Tony T. Wang

ICLR 2026 Negative Pre-Activations Differentiate Syntax Linghao Kong, Angelina Ning, Micah Adler, Nir N Shavit

ICLR 2026 Scalable Energy-Based Models via Adversarial Training: Unifying Discrimination and Generation Xuwang Yin, Claire Zhang, Julie Steele, Nir N Shavit, Tony T. Wang

ICLRW 2025 Cheap and Effective Personalization of Foundation Language Models for Imitating a User's Writing Style Armand Mihai Nicolicioiu, Eugenia Iofinova, Andrej Jovanovic, Eldar Kurtic, Mahdi Nikdan, Andrei Panferov, Ilia Markov, Nir N Shavit, Dan Alistarh

ICLRW 2025 Recovery-on-the-Line: Linear Trends in Post-Quantization Performance Recovery Shashata Sawmya, Shuvom Sadhuka, Ragulan Sivakumar, Nir N Shavit, Dan Alistarh, Bonnie Berger

ICLR 2025 Wasserstein Distances, Neuronal Entanglement, and Sparsity Shashata Sawmya, Linghao Kong, Ilia Markov, Dan Alistarh, Nir N Shavit

NeurIPSW 2024 Jailbreak Defense in a Narrow Domain: Failures of Existing Methods and Improving Transcript-Based Classifiers Tony Tong Wang, John Hughes, Henry Sleight, Rylan Schaeffer, Rajashree Agrawal, Fazl Barez, Mrinank Sharma, Jesse Mu, Nir N Shavit, Ethan Perez

NeurIPSW 2024 Jailbreak Defense in a Narrow Domain: Failures of Existing Methods and Improving Transcript-Based Classifiers Tony Tong Wang, John Hughes, Henry Sleight, Rylan Schaeffer, Rajashree Agrawal, Fazl Barez, Mrinank Sharma, Jesse Mu, Nir N Shavit, Ethan Perez

NeurIPSW 2024 Structure Matters: Deciphering Neural Network's Properties from Its Structure Shashata Sawmya, Md Toki Tahmid, Gourab Saha, Arpita Saha, Nir N Shavit, Lu Mi