Sun, Xiaoshuai

62 publications

ICLR 2026 RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning Mingrui Wu, Lu Wang, Pu Zhao, Fangkai Yang, Jianjin Zhang, Jianfeng Liu, Yuefeng Zhan, Weihao Han, Hao Sun, Jiayi Ji, Xiaoshuai Sun, Qingwei Lin, Weiwei Deng, Dongmei Zhang, Feng Sun, Rongrong Ji

ICLR 2025 $\gamma-$MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models Yaxin Luo, Gen Luo, Jiayi Ji, Yiyi Zhou, Xiaoshuai Sun, Zhiqiang Shen, Rongrong Ji

CVPR 2025 ACL: Activating Capability of Linear Attention for Image Restoration Yubin Gu, Yuan Meng, Jiayi Ji, Xiaoshuai Sun

ICCV 2025 AIGI-Holmes: Towards Explainable and Generalizable AI-Generated Image Detection via Multimodal Large Language Models Ziyin Zhou, Yunpeng Luo, Yuanchen Wu, Ke Sun, Jiayi Ji, Ke Yan, Shouhong Ding, Xiaoshuai Sun, Yunsheng Wu, Rongrong Ji

NeurIPS 2025 Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings Qiong Wu, Wenhao Lin, Yiyi Zhou, Weihao Ye, Zhanpeng Zeng, Xiaoshuai Sun, Rongrong Ji

ICLR 2025 Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large Language Models Gen Luo, Yiyi Zhou, Yuxin Zhang, Xiawu Zheng, Xiaoshuai Sun, Rongrong Ji

CVPR 2025 FlashSloth : Lightning Multimodal Large Language Models via Embedded Visual Compression Bo Tong, Bokai Lai, Yiyi Zhou, Gen Luo, Yunhang Shen, Ke Li, Xiaoshuai Sun, Rongrong Ji

AAAI 2025 IPDN: Image-Enhanced Prompt Decoding Network for 3D Referring Expression Segmentation Qi Chen, Changli Wu, Jiayi Ji, Yiwei Ma, Danni Yang, Xiaoshuai Sun

ICLR 2025 Routing Experts: Learning to Route Dynamic Experts in Existing Multi-Modal Large Language Models Qiong Wu, Zhaoxi Ke, Yiyi Zhou, Xiaoshuai Sun, Rongrong Ji

AAAI 2025 StoryWeaver: A Unified World Model for Knowledge-Enhanced Story Character Customization Jinlu Zhang, Jiji Tang, Rongsheng Zhang, Tangjie Lv, Xiaoshuai Sun

CVPR 2025 Towards General Visual-Linguistic Face Forgery Detection Ke Sun, Shen Chen, Taiping Yao, Ziyin Zhou, Jiayi Ji, Xiaoshuai Sun, Chia-Wen Lin, Rongrong Ji

AAAI 2024 3D-STMN: Dependency-Driven Superpoint-Text Matching Network for End-to-End 3D Referring Expression Segmentation Changli Wu, Yiwei Ma, Qi Chen, Haowei Wang, Gen Luo, Jiayi Ji, Xiaoshuai Sun

NeurIPS 2024 ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models Mingrui Wu, Xinyue Cai, Jiayi Ji, Jiale Li, Oucheng Huang, Gen Luo, Hao Fei, Guannan Jiang, Xiaoshuai Sun, Rongrong Ji

NeurIPS 2024 DiffusionFake: Enhancing Generalization in Deepfake Detection via Guided Stable Diffusion Ke Sun, Shen Chen, Taiping Yao, Hong Liu, Xiaoshuai Sun, Shouhong Ding, Rongrong Ji

ICML 2024 Evaluating and Analyzing Relationship Hallucinations in Large Vision-Language Models Mingrui Wu, Jiayi Ji, Oucheng Huang, Jiale Li, Yuhang Wu, Xiaoshuai Sun, Rongrong Ji

ECCV 2024 Exploring Phrase-Level Grounding with Text-to-Image Diffusion Model Danni Yang, Ruohan Dong, Jiayi Ji, Yiwei Ma, Haowei Wang, Xiaoshuai Sun, Rongrong Ji

ICML 2024 Fast Text-to-3D-Aware Face Generation and Manipulation via Direct Cross-Modal Mapping and Geometric Regularization Jinlu Zhang, Yiyi Zhou, Qiancheng Zheng, Xiaoxiong Du, Gen Luo, Jun Peng, Xiaoshuai Sun, Rongrong Ji

NeurIPS 2024 I2EBench: A Comprehensive Benchmark for Instruction-Based Image Editing Yiwei Ma, Jiayi Ji, Ke Ye, Weihuang Lin, Zhibin Wang, Yonghan Zheng, Qiang Zhou, Xiaoshuai Sun, Rongrong Ji

AAAI 2024 Improving Panoptic Narrative Grounding by Harnessing Semantic Relationships and Visual Confirmation Tianyu Guo, Haowei Wang, Yiwei Ma, Jiayi Ji, Xiaoshuai Sun

ECCV 2024 Multi-Branch Collaborative Learning Network for 3D Visual Grounding Zhipeng Qian, Yiwei Ma, Zhekai Lin, Jiayi Ji, Xiawu Zheng, Xiaoshuai Sun, Rongrong Ji

NeurIPS 2024 RG-SAN: Rule-Guided Spatial Awareness Network for End-to-End 3D Referring Expression Segmentation Changli Wu, Qi Chen, Jiayi Ji, Haowei Wang, Yiwei Ma, You Huang, Gen Luo, Hao Fei, Xiaoshuai Sun, Rongrong Ji

CVPR 2024 Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation Sihan Liu, Yiwei Ma, Xiaoqing Zhang, Haowei Wang, Jiayi Ji, Xiaoshuai Sun, Rongrong Ji

ICML 2024 SAM as the Guide: Mastering Pseudo-Label Refinement in Semi-Supervised Referring Expression Segmentation Danni Yang, Jiayi Ji, Yiwei Ma, Tianyu Guo, Haowei Wang, Xiaoshuai Sun, Rongrong Ji

AAAI 2024 Toward Open-Set Human Object Interaction Detection Mingrui Wu, Yuqi Liu, Jiayi Ji, Xiaoshuai Sun, Rongrong Ji

AAAI 2024 Towards Efficient Diffusion-Based Image Editing with Instant Attention Masks Siyu Zou, Jiji Tang, Yiyi Zhou, Jing He, Chaoyi Zhao, Rongsheng Zhang, Zhipeng Hu, Xiaoshuai Sun

ICML 2024 X-Oscar: A Progressive Framework for High-Quality Text-Guided 3D Animatable Avatar Generation Yiwei Ma, Zhekai Lin, Jiayi Ji, Yijun Fan, Xiaoshuai Sun, Rongrong Ji

AAAI 2024 X-RefSeg3D: Enhancing Referring 3D Instance Segmentation via Structured Cross-Modal Graph Neural Networks Zhipeng Qian, Yiwei Ma, Jiayi Ji, Xiaoshuai Sun

NeurIPS 2023 Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models Gen Luo, Yiyi Zhou, Tianhe Ren, Shengxin Chen, Xiaoshuai Sun, Rongrong Ji

CVPR 2023 Clover: Towards a Unified Video-Language Alignment and Fusion Model Jingjia Huang, Yinan Li, Jiashi Feng, Xinglong Wu, Xiaoshuai Sun, Rongrong Ji

AAAI 2023 End-to-End Zero-Shot HOI Detection via Vision and Language Knowledge Distillation Mingrui Wu, Jiaxin Gu, Yunhang Shen, Mingbao Lin, Chao Chen, Xiaoshuai Sun

NeurIPS 2023 Parameter and Computation Efficient Transfer Learning for Vision-Language Pre-Trained Models Qiong Wu, Wei Yu, Yiyi Zhou, Shubin Huang, Xiaoshuai Sun, Rongrong Ji

CVPR 2023 RefCLIP: A Universal Teacher for Weakly Supervised Referring Expression Comprehension Lei Jin, Gen Luo, Yiyi Zhou, Xiaoshuai Sun, Guannan Jiang, Annan Shu, Rongrong Ji

CVPR 2023 RefTeacher: A Strong Baseline for Semi-Supervised Referring Expression Comprehension Jiamu Sun, Gen Luo, Yiyi Zhou, Xiaoshuai Sun, Guannan Jiang, Zhiyu Wang, Rongrong Ji

AAAI 2023 Towards Real-Time Panoptic Narrative Grounding by an End-to-End Grounding Network Haowei Wang, Jiayi Ji, Yiyi Zhou, Yongjian Wu, Xiaoshuai Sun

ICCV 2023 X-Mesh: Towards Fast and Accurate Text-Driven 3D Stylization via Dynamic Textual Guidance Yiwei Ma, Xiaoqing Zhang, Xiaoshuai Sun, Jiayi Ji, Haowei Wang, Guannan Jiang, Weilin Zhuang, Rongrong Ji

CVPR 2022 Active Teacher for Semi-Supervised Object Detection Peng Mi, Jianghang Lin, Yiyi Zhou, Yunhang Shen, Gen Luo, Xiaoshuai Sun, Liujuan Cao, Rongrong Fu, Qiang Xu, Rongrong Ji

ECCV 2022 An Information Theoretic Approach for Attention-Driven Face Forgery Detection Ke Sun, Hong Liu, Taiping Yao, Xiaoshuai Sun, Shen Chen, Shouhong Ding, Rongrong Ji

CVPR 2022 DIFNet: Boosting Visual Information Flow for Image Captioning Mingrui Wu, Xuying Zhang, Xiaoshuai Sun, Yiyi Zhou, Chao Chen, Jiaxin Gu, Xing Sun, Rongrong Ji

NeurIPS 2022 Make Sharpness-Aware Minimization Stronger: A Sparsified Perturbation Approach Peng Mi, Li Shen, Tianhe Ren, Yiyi Zhou, Xiaoshuai Sun, Rongrong Ji, Dacheng Tao

ECCV 2022 PixelFolder: An Efficient Progressive Pixel Synthesis Network for Image Generation Jing He, Yiyi Zhou, Qi Zhang, Jun Peng, Yunhang Shen, Xiaoshuai Sun, Chao Chen, Rongrong Ji

ECCV 2022 SeqTR: A Simple yet Universal Network for Visual Grounding Chaoyang Zhu, Yiyi Zhou, Yunhang Shen, Gen Luo, Xingjia Pan, Mingbao Lin, Chao Chen, Liujuan Cao, Xiaoshuai Sun, Rongrong Ji

AAAI 2021 Dual-Level Collaborative Transformer for Image Captioning Yunpeng Luo, Jiayi Ji, Xiaoshuai Sun, Liujuan Cao, Yongjian Wu, Feiyue Huang, Chia-Wen Lin, Rongrong Ji

AAAI 2021 Improving Image Captioning by Leveraging Intra- and Inter-Layer Global Representation in Transformer Network Jiayi Ji, Yunpeng Luo, Xiaoshuai Sun, Fuhai Chen, Gen Luo, Yongjian Wu, Yue Gao, Rongrong Ji

CVPR 2021 RSTNet: Captioning with Adaptive Attention on Visual and Non-Visual Words Xuying Zhang, Xiaoshuai Sun, Yunpeng Luo, Jiayi Ji, Yiyi Zhou, Yongjian Wu, Feiyue Huang, Rongrong Ji

ICCV 2021 TRAR: Routing the Attention Spans in Transformer for Visual Question Answering Yiyi Zhou, Tianhe Ren, Chaoyang Zhu, Xiaoshuai Sun, Jianzhuang Liu, Xinghao Ding, Mingliang Xu, Rongrong Ji

CVPR 2020 Multi-Task Collaborative Network for Joint Referring Expression Comprehension and Segmentation Gen Luo, Yiyi Zhou, Xiaoshuai Sun, Liujuan Cao, Chenglin Wu, Cheng Deng, Rongrong Ji

AAAI 2020 SSAH: Semi-Supervised Adversarial Deep Hashing with Self-Paced Hard Sample Generation Sheng Jin, Shangchen Zhou, Yao Liu, Chao Chen, Xiaoshuai Sun, Hongxun Yao, Xian-Sheng Hua

AAAI 2019 Dynamic Capsule Attention for Visual Question Answering Yiyi Zhou, Rongrong Ji, Jinsong Su, Xiaoshuai Sun, Weiqiu Chen

AAAI 2019 Free VQA Models from Knowledge Inertia by Pairwise Inconformity Learning Yiyi Zhou, Rongrong Ji, Jinsong Su, Xiangming Li, Xiaoshuai Sun

IJCAI 2019 Hypergraph Induced Convolutional Manifold Networks Taisong Jin, Liujuan Cao, Baochang Zhang, Xiaoshuai Sun, Cheng Deng, Rongrong Ji

NeurIPS 2019 Information Competing Process for Learning Diversified Representations Jie Hu, Rongrong Ji, ShengChuan Zhang, Xiaoshuai Sun, Qixiang Ye, Chia-Wen Lin, Qi Tian

ICCV 2019 Pix2Vox: Context-Aware 3D Reconstruction from Single and Multi-View Images Haozhe Xie, Hongxun Yao, Xiaoshuai Sun, Shangchen Zhou, Shengping Zhang

AAAI 2019 Towards Optimal Discrete Online Hashing with Balanced Similarity Mingbao Lin, Rongrong Ji, Hong Liu, Xiaoshuai Sun, Yongjian Wu, Yunsheng Wu

AAAI 2019 Towards Optimal Fine Grained Retrieval via Decorrelated Centralized Loss with Normalize-Scale Layer Xiawu Zheng, Rongrong Ji, Xiaoshuai Sun, Baochang Zhang, Yongjian Wu, Feiyue Huang

NeurIPS 2019 Variational Structured Semantic Inference for Diverse Image Captioning Fuhai Chen, Rongrong Ji, Jiayi Ji, Xiaoshuai Sun, Baochang Zhang, Xuri Ge, Yongjian Wu, Feiyue Huang, Yan Wang

IJCAI 2018 Centralized Ranking Loss with Weakly Supervised Localization for Fine-Grained Object Retrieval Xiawu Zheng, Rongrong Ji, Xiaoshuai Sun, Yongjian Wu, Feiyue Huang, Yanhua Yang

CVPR 2018 GroupCap: Group-Based Image Captioning with Structured Relevance and Diversity Constraints Fuhai Chen, Rongrong Ji, Xiaoshuai Sun, Yongjian Wu, Jinsong Su

AAAI 2017 An Integrated Model for Effective Saliency Prediction Xiaoshuai Sun, Zi Huang, Hongzhi Yin, Heng Tao Shen

AAAI 2017 Web-Based Semantic Fragment Discovery for On-Line Lingual-Visual Similarity Xiaoshuai Sun, Jiewei Cao, Chao Li, Lei Zhu, Heng Tao Shen

CVPR 2013 Exploring Implicit Image Statistics for Visual Representativeness Modeling Xiaoshuai Sun, Xin-Jing Wang, Hongxun Yao, Lei Zhang

CVPR 2012 What Are We Looking for: Towards Statistical Modeling of Saccadic Eye Movements and Visual Saliency Xiaoshuai Sun, Hongxun Yao, Rongrong Ji

CVPR 2010 Towards Semantic Embedding in Visual Vocabulary Rongrong Ji, Hongxun Yao, Xiaoshuai Sun, Bineng Zhong, Wen Gao