Ho, Tsung-Yi

36 publications

NeurIPS 2025 CARE: Decoding-Time Safety Alignment via Rollback and Introspection Intervention Xiaomeng Hu, Fei Huang, Chenhan Yuan, Junyang Lin, Tsung-Yi Ho

NeurIPS 2025 CoP: Agentic Red-Teaming for Large Language Models Using Composition of Principles Chen Xiong, Pin-Yu Chen, Tsung-Yi Ho

NeurIPS 2025 PermLLM: Learnable Channel Permutation for N:M Sparse Large Language Models Lancheng Zou, Shuo Yin, Zehua Pei, Tsung-Yi Ho, Farzan Farnia, Bei Yu

AAAI 2025 Retention Score: Quantifying Jailbreak Risks for Vision Language Models Zaitang Li, Pin-Yu Chen, Tsung-Yi Ho

AAAI 2025 Token Highlighter: Inspecting and Mitigating Jailbreak Prompts for Large Language Models Xiaomeng Hu, Pin-Yu Chen, Tsung-Yi Ho

ICLR 2024 AutoVP: An Automated Visual Prompting Framework and Benchmark Hsi-Ai Tsao, Lei Hsiung, Pin-Yu Chen, Sijia Liu, Tsung-Yi Ho

ICML 2024 Be Your Own Neighborhood: Detecting Adversarial Examples by the Neighborhood Relations Built on Self-Supervised Learning Zhiyuan He, Yijun Yang, Pin-Yu Chen, Qiang Xu, Tsung-Yi Ho

AAAI 2024 Elijah: Eliminating Backdoors Injected in Diffusion Models via Distribution Shift Shengwei An, Sheng-Yen Chou, Kaiyuan Zhang, Qiuling Xu, Guanhong Tao, Guangyu Shen, Siyuan Cheng, Shiqing Ma, Pin-Yu Chen, Tsung-Yi Ho, Xiangyu Zhang

NeurIPSW 2024 GRE Score: Generative Risk Evaluation for Large Language Models Zaitang Li, Mohamed Mouhajir, Pin-Yu Chen, Tsung-Yi Ho

NeurIPS 2024 GREAT Score: Global Robustness Evaluation of Adversarial Perturbation Using Generative Models Zaitang Li, Pin-Yu Chen, Tsung-Yi Ho

NeurIPS 2024 Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes Xiaomeng Hu, Pin-Yu Chen, Tsung-Yi Ho

CVPR 2024 MMA-Diffusion: MultiModal Attack on Diffusion Models Yijun Yang, Ruiyuan Gao, Xiaosen Wang, Tsung-Yi Ho, Nan Xu, Qiang Xu

TMLR 2024 Neural Clamping: Joint Input Perturbation and Temperature Scaling for Neural Network Calibration Yung-Chen Tang, Pin-Yu Chen, Tsung-Yi Ho

NeurIPS 2024 NeuralFuse: Learning to Recover the Accuracy of Access-Limited Neural Network Inference in Low-Voltage Regimes Hao-Lun Sun, Lei Hsiung, Nandhini Chandramoorthy, Pin-Yu Chen, Tsung-Yi Ho

NeurIPSW 2024 Retention Score: Quantifying Jailbreak Risks for Vision Language Models Zaitang Li, Pin-Yu Chen, Tsung-Yi Ho

ICLR 2024 Rethinking Backdoor Attacks on Dataset Distillation: A Kernel Method Perspective Ming-Yu Chung, Sheng-Yen Chou, Chia-Mu Yu, Pin-Yu Chen, Sy-Yen Kuo, Tsung-Yi Ho

ICLR 2024 The Devil Is in the Neurons: Interpreting and Mitigating Social Biases in Language Models Yan Liu, Yu Liu, Xiaokang Chen, Pin-Yu Chen, Daoguang Zan, Min-Yen Kan, Tsung-Yi Ho

NeurIPSW 2024 Token Highlighter: Inspecting and Mitigating Jailbreak Prompts for Large Language Models Xiaomeng Hu, Pin-Yu Chen, Tsung-Yi Ho

NeurIPSW 2023 AutoVP: An Automated Visual Prompting Framework and Benchmark Hsi-Ai Tsao, Lei Hsiung, Pin-Yu Chen, Sijia Liu, Tsung-Yi Ho

NeurIPSW 2023 AutoVP: An Automated Visual Prompting Framework and Benchmark Hsi-Ai Tsao, Lei Hsiung, Pin-Yu Chen, Sijia Liu, Tsung-Yi Ho

CVPR 2023 How to Backdoor Diffusion Models? Sheng-Yen Chou, Pin-Yu Chen, Tsung-Yi Ho

ICLRW 2023 How to Backdoor Diffusion Models? Sheng-Yen Chou, Pin-Yu Chen, Tsung-Yi Ho

NeurIPSW 2023 How to Remove Backdoors in Diffusion Models? Shengwei An, Sheng-Yen Chou, Kaiyuan Zhang, Qiuling Xu, Guanhong Tao, Guangyu Shen, Siyuan Cheng, Shiqing Ma, Pin-Yu Chen, Tsung-Yi Ho, Xiangyu Zhang

AAAI 2023 NCTV: Neural Clamping Toolkit and Visualization for Neural Network Calibration Lei Hsiung, Yung-Chen Tang, Pin-Yu Chen, Tsung-Yi Ho

NeurIPS 2023 RADAR: Robust AI-Text Detection via Adversarial Learning Xiaomeng Hu, Pin-Yu Chen, Tsung-Yi Ho

CVPR 2023 Towards Compositional Adversarial Robustness: Generalizing Adversarial Training to Composite Semantic Perturbations Lei Hsiung, Yun-Yun Tsai, Pin-Yu Chen, Tsung-Yi Ho

NeurIPS 2023 Uncovering and Quantifying Social Biases in Code Generation Yan Liu, Xiaokang Chen, Yan Gao, Zhe Su, Fengji Zhang, Daoguang Zan, Jian-Guang Lou, Pin-Yu Chen, Tsung-Yi Ho

NeurIPS 2023 VillanDiffusion: A Unified Backdoor Attack Framework for Diffusion Models Sheng-Yen Chou, Pin-Yu Chen, Tsung-Yi Ho

NeurIPSW 2023 VillanDiffusion: A Unified Backdoor Attack Framework for Diffusion Models Sheng-Yen Chou, Pin-Yu Chen, Tsung-Yi Ho

IJCAI 2022 CARBEN: Composite Adversarial Robustness Benchmark Lei Hsiung, Yun-Yun Tsai, Pin-Yu Chen, Tsung-Yi Ho

ICMLW 2021 Generalizing Adversarial Training to Composite Semantic Perturbations Yun-Yun Tsai, Lei Hsiung, Pin-Yu Chen, Tsung-Yi Ho

ICML 2021 Parallel Droplet Control in MEDA Biochips Using Multi-Agent Reinforcement Learning Tung-Che Liang, Jin Zhou, Yun-Sheng Chan, Tsung-Yi Ho, Krishnendu Chakrabarty, Cy Lee

ICML 2020 Adaptive Droplet Routing in Digital Microfluidic Biochips Using Deep Reinforcement Learning Tung-Che Liang, Zhanwei Zhong, Yaas Bigdeli, Tsung-Yi Ho, Krishnendu Chakrabarty, Richard Fair

AAAI 2020 Beyond Digital Domain: Fooling Deep Learning Based Recognition System in Physical World Kaichen Yang, Tzungyu Tsai, Honggang Yu, Tsung-Yi Ho, Yier Jin

AAAI 2020 Robust Adversarial Objects Against Deep Learning Models Tzungyu Tsai, Kaichen Yang, Tsung-Yi Ho, Yier Jin

ICML 2020 Transfer Learning Without Knowing: Reprogramming Black-Box Machine Learning Models with Scarce Data and Limited Resources Yun-Yun Tsai, Pin-Yu Chen, Tsung-Yi Ho