Jia, Ruoxi

54 publications

NeurIPS 2025 A Sustainable AI Economy Needs Data Deals That Work for Generators Ruoxi Jia, Luis Oala, Wenjie Xiong, Suqin Ge, Jiachen T. Wang, Feiyang Kang, Dawn Song

ICLR 2025 AIR-BENCH 2024: A Safety Benchmark Based on Regulation and Policies Specified Risk Categories Yi Zeng, Yu Yang, Andy Zhou, Jeffrey Ziwei Tan, Yuheng Tu, Yifan Mai, Kevin Klyman, Minzhou Pan, Ruoxi Jia, Dawn Song, Percy Liang, Bo Li

ICLR 2025 Capturing the Temporal Dependence of Training Data Influence Jiachen T. Wang, Dawn Song, James Zou, Prateek Mittal, Ruoxi Jia

DMLR 2025 Data Acquisition: A New Frontier in Data-Centric AI Lingjiao Chen, Bilge Acun, Newsha Ardalani, Yifan Sun, Feiyang Kang, Hanrui Lyu, Yongchan Kwon, Ruoxi Jia, Carole-Jean Wu, Matei Zaharia, James Zou

ICLR 2025 Data Shapley in One Training Run Jiachen T. Wang, Prateek Mittal, Dawn Song, Ruoxi Jia

CVPR 2025 Detecting Adversarial Data Using Perturbation Forgery Qian Wang, Chen Li, Yuchen Luo, Hefei Ling, Shijuan Huang, Ruoxi Jia, Ning Yu

ICLRW 2025 Efficient Backdoor Detection on Text-to-Image Synthesis via Neuron Activation Variation Shengfang Zhai, Jiajun Li, Yue Liu, Yinpeng Dong, Zhihua Tian, Wenjie Qu, Qingni Shen, Ruoxi Jia, Jiaheng Zhang

ICCV 2025 Efficient Input-Level Backdoor Defense on Text-to-Image Synthesis via Neuron Activation Variation Shengfang Zhai, Jiajun Li, Yue Liu, Huanran Chen, Zhihua Tian, Wenjie Qu, Qingni Shen, Ruoxi Jia, Yinpeng Dong, Jiaheng Zhang

ICML 2025 Just Enough Shifts: Mitigating Over-Refusal in Aligned Language Models with Targeted Representation Fine-Tuning Mahavir Dabas, Si Chen, Charles Fleming, Ming Jin, Ruoxi Jia

ICLR 2025 LLMs Can Plan Only if We Tell Them Bilgehan Sel, Ruoxi Jia, Ming Jin

ICML 2025 LLMs Can Reason Faster Only if We Let Them Bilgehan Sel, Lifu Huang, Naren Ramakrishnan, Ruoxi Jia, Ming Jin

ICLR 2025 Mind Control Through Causal Inference: Predicting Clean Images from Poisoned Data Mengxuan Hu, Zihan Guan, Yi Zeng, Junfeng Guo, Zhongliang Zhou, Jielu Zhang, Ruoxi Jia, Anil Kumar Vullikanti, Sheng Li

NeurIPS 2025 Probing Hidden Knowledge Holes in Unlearned LLMs Myeongseob Ko, Hoang Anh Just, Charles Fleming, Ming Jin, Ruoxi Jia

ICLR 2025 SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Tinghao Xie, Xiangyu Qi, Yi Zeng, Yangsibo Huang, Udari Madhushani Sehwag, Kaixuan Huang, Luxi He, Boyi Wei, Dacheng Li, Ying Sheng, Ruoxi Jia, Bo Li, Kai Li, Danqi Chen, Peter Henderson, Prateek Mittal

ICML 2024 Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language Models Bilgehan Sel, Ahmad Tawaha, Vanshaj Khattar, Ruoxi Jia, Ming Jin

NeurIPS 2024 Boosting Alignment for Post-Unlearning Text-to-Image Generative Models Myeongseob Ko, Henry Li, Zhun Wang, Jonathan Patsenker, Jiachen T. Wang, Qinbin Li, Ming Jin, Dawn Song, Ruoxi Jia

TMLR 2024 Data Valuation in the Absence of a Reliable Validation Set Himanshu Jahagirdar, Jiachen T. Wang, Ruoxi Jia

TMLR 2024 Data-Centric Defense: Shaping Loss Landscape with Augmentations to Counter Model Inversion Si Chen, Feiyang Kang, Nikhil Abhyankar, Ming Jin, Ruoxi Jia

AISTATS 2024 Efficient Data Shapley for Weighted Nearest Neighbor Algorithms Jiachen T. Wang, Prateek Mittal, Ruoxi Jia

NeurIPS 2024 Fairness-Aware Meta-Learning via Nash Bargaining Yi Zeng, Xuelin Yang, Li Chen, Cristian Canton Ferrer, Ming Jin, Michael I. Jordan, Ruoxi Jia

ICLR 2024 Fine-Tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend to! Xiangyu Qi, Yi Zeng, Tinghao Xie, Pin-Yu Chen, Ruoxi Jia, Prateek Mittal, Peter Henderson

NeurIPS 2024 GREATS: Online Selection of High-Quality Data for LLM Training in Every Iteration Jiachen T. Wang, Tong Wu, Dawn Song, Prateek Mittal, Ruoxi Jia

ICLR 2024 Get More for Less: Principled Data Selection for Warming up Fine-Tuning in LLMs Feiyang Kang, Hoang Anh Just, Yifan Sun, Himanshu Jahagirdar, Yuanzhi Zhang, Rongxing Du, Anit Kumar Sahu, Ruoxi Jia

UAI 2024 Learning to Rank for Active Learning via Multi-Task Bilevel Optimization Zixin Ding, Si Chen, Ruoxi Jia, Yuxin Chen

ICML 2024 Position: A Safe Harbor for AI Evaluation and Red Teaming Shayne Longpre, Sayash Kapoor, Kevin Klyman, Ashwin Ramaswami, Rishi Bommasani, Borhane Blili-Hamelin, Yangsibo Huang, Aviya Skowron, Zheng Xin Yong, Suhas Kotha, Yi Zeng, Weiyan Shi, Xianjun Yang, Reid Southen, Alexander Robey, Patrick Chao, Diyi Yang, Ruoxi Jia, Daniel Kang, Alex Pentland, Arvind Narayanan, Percy Liang, Peter Henderson

ICML 2024 Rethinking Data Shapley for Data Selection Tasks: Misleads and Merits Jiachen T. Wang, Tianji Yang, James Zou, Yongchan Kwon, Ruoxi Jia

ICML 2024 RigorLLM: Resilient Guardrails for Large Language Models Against Undesired Content Zhuowen Yuan, Zidi Xiong, Yi Zeng, Ning Yu, Ruoxi Jia, Dawn Song, Bo Li

CVPR 2024 The Mirrored Influence Hypothesis: Efficient Data Influence Estimation by Harnessing Forward Passes Myeongseob Ko, Feiyang Kang, Weiyan Shi, Ming Jin, Zhou Yu, Ruoxi Jia

ICML 2023 2D-Shapley: A Framework for Fragmented Data Valuation Zhihong Liu, Hoang Anh Just, Xiangyu Chang, Xi Chen, Ruoxi Jia

NeurIPS 2023 A Privacy-Friendly Approach to Data Valuation Jiachen Wang, Yuqing Zhu, Yu-Xiang Wang, Ruoxi Jia, Prateek Mittal

NeurIPS 2023 A Randomized Approach to Tight Privacy Accounting Jiachen Wang, Saeed Mahloujifar, Tong Wu, Ruoxi Jia, Prateek Mittal

NeurIPSW 2023 AnchMark: Anchor-Contrastive Watermarking vs GenAI-Based Image Modifications Minzhou Pan, Yi Zeng, Xue Lin, Ning Yu, Cho-Jui Hsieh, Ruoxi Jia

AISTATS 2023 Data Banzhaf: A Robust Data Valuation Framework for Machine Learning Jiachen T. Wang, Ruoxi Jia

ICLR 2023 LAVA: Data Valuation Without Pre-Specified Learning Algorithms Hoang Anh Just, Feiyang Kang, Tianhao Wang, Yi Zeng, Myeongseob Ko, Ming Jin, Ruoxi Jia

L4DC 2023 Learning-to-Learn to Guide Random Search: Derivative-Free Meta Blackbox Optimization on Manifold Bilgehan Sel, Ahmad Tawaha, Yuhao Ding, Ruoxi Jia, Bo Ji, Javad Lavaei, Ming Jin

AAAI 2023 On Solution Functions of Optimization: Universal Approximation and Covering Number Bounds Ming Jin, Vanshaj Khattar, Harshal Kaushik, Bilgehan Sel, Ruoxi Jia

TMLR 2023 One-Round Active Learning Through Data Utility Learning and Proxy Models Jiachen T. Wang, Si Chen, Ruoxi Jia

NeurIPS 2023 Performance Scaling via Optimal Transport: Enabling Data Selection from Partially Revealed Sources Feiyang Kang, Hoang Anh Just, Anit Kumar Sahu, Ruoxi Jia

ICCV 2023 Practical Membership Inference Attacks Against Large-Scale Multi-Modal Models: A Pilot Study Myeongseob Ko, Ming Jin, Chenguang Wang, Ruoxi Jia

ICML 2023 Revisiting Data-Free Knowledge Distillation with Poisoned Teachers Junyuan Hong, Yi Zeng, Shuyang Yu, Lingjuan Lyu, Ruoxi Jia, Jiayu Zhou

ICLR 2023 Towards Robustness Certification Against Universal Perturbations Yi Zeng, Zhouxing Shi, Ming Jin, Feiyang Kang, Lingjuan Lyu, Cho-Jui Hsieh, Ruoxi Jia

TMLR 2023 Turning a Curse into a Blessing: Enabling In-Distribution-Data-Free Backdoor Removal via Stabilized Model Inversion Si Chen, Yi Zeng, Won Park, Jiachen T. Wang, Xun Chen, Lingjuan Lyu, Zhuoqing Mao, Ruoxi Jia

NeurIPSW 2023 Who Leaked the Model? Tracking IP Infringers in Accountable Federated Learning Shuyang Yu, Junyuan Hong, Yi Zeng, Fei Wang, Ruoxi Jia, Jiayu Zhou

ICLR 2022 Adversarial Unlearning of Backdoors via Implicit Hypergradient Yi Zeng, Si Chen, Won Park, Zhuoqing Mao, Ming Jin, Ruoxi Jia

NeurIPS 2022 CATER: Intellectual Property Protection on Text Generation APIs via Conditional Watermarks Xuanli He, Qiongkai Xu, Yi Zeng, Lingjuan Lyu, Fangzhao Wu, Jiwei Li, Ruoxi Jia

CVPR 2022 Label-Only Model Inversion Attacks via Boundary Repulsion Mostafa Kahla, Si Chen, Hoang Anh Just, Ruoxi Jia

NeurIPS 2022 Renyi Differential Privacy of Propose-Test-Release and Applications to Private and Robust Machine Learning Jiachen T. Wang, Saeed Mahloujifar, Shouda Wang, Ruoxi Jia, Prateek Mittal

AAAI 2021 Improving Robustness to Model Inversion Attacks via Mutual Information Regularization Tianhao Wang, Yuheng Zhang, Ruoxi Jia

ICLR 2021 InfoBERT: Improving Robustness of Language Models from an Information Theoretic Perspective Boxin Wang, Shuohang Wang, Yu Cheng, Zhe Gan, Ruoxi Jia, Bo Li, Jingjing Liu

ICCV 2021 Knowledge-Enriched Distributional Model Inversion Attacks Si Chen, Mostafa Kahla, Ruoxi Jia, Guo-Jun Qi

ICCV 2021 Rethinking the Backdoor Attacks' Triggers: A Frequency Perspective Yi Zeng, Won Park, Z. Morley Mao, Ruoxi Jia

CVPR 2021 Scalability vs. Utility: Do We Have to Sacrifice One for the Other in Data Importance Quantification? Ruoxi Jia, Fan Wu, Xuehui Sun, Jiacen Xu, David Dao, Bhavya Kailkhura, Ce Zhang, Bo Li, Dawn Song

ICLR 2020 Robust Anomaly Detection and Backdoor Attack Detection via Differential Privacy Min Du, Ruoxi Jia, Dawn Song

AISTATS 2019 Towards Efficient Data Valuation Based on the Shapley Value Ruoxi Jia, David Dao, Boxin Wang, Frances Ann Hubis, Nick Hynes, Nezihe Merve Gürel, Bo Li, Ce Zhang, Dawn Song, Costas J. Spanos