Wu, Zuxuan

79 publications

ICCV 2025 AID: Adapting Image2Video Diffusion Models for Instruction-Guided Video Prediction Zhen Xing, Qi Dai, Zejia Weng, Zuxuan Wu, Yu-Gang Jiang

ICCV 2025 Achieving More with Less: Additive Prompt Tuning for Rehearsal-Free Class-Incremental Learning Haoran Chen, Ping Wang, Zihan Zhou, Xu Zhang, Zuxuan Wu, Yu-Gang Jiang

AAAI 2025 AdaDiff: Adaptive Step Selection for Fast Diffusion Models Hui Zhang, Zuxuan Wu, Zhen Xing, Jie Shao, Yu-Gang Jiang

ICLR 2025 Adaptive Retention & Correction: Test-Time Training for Continual Learning Haoran Chen, Micah Goldblum, Zuxuan Wu, Yu-Gang Jiang

CVPR 2025 BlockDance: Reuse Structurally Similar Spatio-Temporal Features to Accelerate Diffusion Transformers Hui Zhang, Tingwei Gao, Jie Shao, Zuxuan Wu

AAAI 2025 Comprehensive Multi-Modal Prototypes Are Simple and Effective Classifiers for Vast-Vocabulary Object Detection Yitong Chen, Wenhao Yao, Lingchen Meng, Sihong Wu, Zuxuan Wu, Yu-Gang Jiang

ICCV 2025 CreatiLayout: Siamese Multimodal Diffusion Transformer for Creative Layout-to-Image Generation Hui Zhang, Dexiang Hong, Yitong Wang, Jie Shao, Xinglong Wu, Zuxuan Wu, Yu-Gang Jiang

CVPR 2025 EDEN: Enhanced Diffusion for High-Quality Large-Motion Video Frame Interpolation Zihao Zhang, Haoran Chen, Haoyu Zhao, Guansong Lu, Yanwei Fu, Hang Xu, Zuxuan Wu

AAAI 2025 FNIN: A Fourier Neural Operator-Based Numerical Integration Network for Surface-from-Gradients Jiaqi Leng, Yakun Ju, Yuanxu Duan, Jiangnan Zhang, Qingxuan Lv, Zuxuan Wu, Hao Fan

AAAI 2025 FOCUS: Towards Universal Foreground Segmentation Zuyao You, Lingyu Kong, Lingchen Meng, Zuxuan Wu

NeurIPS 2025 ForgerySleuth: Empowering Multimodal Large Language Models for Image Manipulation Detection Zhihao Sun, Haoran Jiang, Haoran Chen, Yixin Cao, Xipeng Qiu, Zuxuan Wu, Yu-Gang Jiang

ICCV 2025 Hydra-NeXt: Robust Closed-Loop Driving with Open-Loop Training Zhenxin Li, Shihao Wang, Shiyi Lan, Zhiding Yu, Zuxuan Wu, Jose M. Alvarez

NeurIPS 2025 INST-IT: Boosting Instance Understanding via Explicit Visual Prompt Instruction Tuning Wujian Peng, Lingchen Meng, Yitong Chen, Yiweng Xie, Yang Liu, Tao Gui, Hang Xu, Xipeng Qiu, Zuxuan Wu, Yu-Gang Jiang

ICCV 2025 MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance Quanhao Li, Zhen Xing, Rui Wang, Hui Zhang, Qi Dai, Zuxuan Wu

ICCV 2025 MotionFollower: Editing Video Motion via Score-Guided Diffusion Shuyuan Tu, Qi Dai, Zihao Zhang, Sicheng Xie, Zhi-Qi Cheng, Chong Luo, Xintong Han, Zuxuan Wu, Yu-Gang Jiang

NeurIPS 2025 OmniGen-AR: AutoRegressive Any-to-Image Generation Junke Wang, Xun Wang, Qiushan Guo, Peize Sun, Weilin Huang, Zuxuan Wu, Yu-Gang Jiang

ICCV 2025 REDUCIO! Generating 1k Video Within 16 Seconds Using Extremely Compressed Motion Latents Rui Tian, Qi Dai, Jianmin Bao, Kai Qiu, Yifan Yang, Chong Luo, Zuxuan Wu, Yu-Gang Jiang

ICCV 2025 Rethinking Discrete Tokens: Treating Them as Conditions for Continuous Autoregressive Image Synthesis Peng Zheng, Junke Wang, Yi Chang, Yizhou Yu, Rui Ma, Zuxuan Wu

NeurIPS 2025 Seg2Any: Open-Set Segmentation-Mask-to-Image Generation with Precise Shape and Semantic Control Danfeng Li, Hui Zhang, Sheng Wang, Jiacheng Li, Zuxuan Wu

CVPR 2025 StableAnimator: High-Quality Identity-Preserving Human Image Animation Shuyuan Tu, Zhen Xing, Xintong Han, Zhi-Qi Cheng, Qi Dai, Chong Luo, Zuxuan Wu

NeurIPS 2025 UniGen: Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation Rui Tian, Mingfei Gao, Mingze Xu, Jiaming Hu, Jiasen Lu, Zuxuan Wu, Yinfei Yang, Afshin Dehghan

ICCV 2025 VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks Shiduo Zhang, Zhe Xu, Peiju Liu, Xiaopeng Yu, Yuan Li, Qinghui Gao, Zhaoye Fei, Zhangyue Yin, Zuxuan Wu, Yu-Gang Jiang, Xipeng Qiu

NeurIPS 2024 Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms Miaosen Zhang, Yixuan Wei, Zhen Xing, Yifei Ma, Zuxuan Wu, Ji Li, Zheng Zhang, Qi Dai, Chong Luo, Xin Geng, Baining Guo

CVPR 2024 BEVNeXt: Reviving Dense BEV Frameworks for 3D Object Detection Zhenxin Li, Shiyi Lan, Jose M. Alvarez, Zuxuan Wu

NeurIPS 2024 DeepStack: Deeply Stacking Visual Tokens Is Surprisingly Simple and Effective for LMMs Lingchen Meng, Jianwei Yang, Rui Tian, Xiyang Dai, Zuxuan Wu, Jianfeng Gao, Yu-Gang Jiang

ECCV 2024 DreamMesh: Jointly Manipulating and Texturing Triangle Meshes for Text-to-3D Generation Haibo Yang, Yang Chen, Yingwei Pan, Ting Yao, Zhineng Chen, Zuxuan Wu, Yu-Gang Jiang, Tao Mei

NeurIPS 2024 GenRec: Unifying Video Generation and Recognition with Diffusion Models Zejia Weng, Xitong Yang, Zhen Xing, Zuxuan Wu, Yu-Gang Jiang

CVPR 2024 Learning to Rank Patches for Unbiased Image Redundancy Reduction Yang Luo, Zhineng Chen, Peng Zhou, Zuxuan Wu, Xieping Gao, Yu-Gang Jiang

ECCV 2024 MagDiff: Multi-Alignment Diffusion for High-Fidelity Video Generation and Editing Haoyu Zhao, Tianyi Lu, Jiaxi Gu, Xing Zhang, Qingping Zheng, Zuxuan Wu, Hang Xu, Yu-Gang Jiang

CVPR 2024 MotionEditor: Editing Video Motion via Content-Aware Diffusion Shuyuan Tu, Qi Dai, Zhi-Qi Cheng, Han Hu, Xintong Han, Zuxuan Wu, Yu-Gang Jiang

NeurIPS 2024 OmniTokenizer: A Joint Image-Video Tokenizer for Visual Generation Junke Wang, Yi Jiang, Zehuan Yuan, Binyue Peng, Zuxuan Wu, Yu-Gang Jiang

CVPR 2024 OmniViD: A Generative Framework for Universal Video Understanding Junke Wang, Dongdong Chen, Chong Luo, Bo He, Lu Yuan, Zuxuan Wu, Yu-Gang Jiang

ECCV 2024 PromptFusion: Decoupling Stability and Plasticity for Continual Learning Haoran Chen, Zuxuan Wu, Xintong Han, Menglin Jia, Yu-Gang Jiang

ECCV 2024 SEGIC: Unleashing the Emergent Correspondence for In-Context Segmentation Lingchen Meng, Shiyi Lan, Hengduo Li, Jose M Alvarez, Zuxuan Wu, Yu-Gang Jiang

CVPR 2024 SimDA: Simple Diffusion Adapter for Efficient Video Generation Zhen Xing, Qi Dai, Han Hu, Zuxuan Wu, Yu-Gang Jiang

CVPR 2024 Synthesize Diagnose and Optimize: Towards Fine-Grained Vision-Language Understanding Wujian Peng, Sicheng Xie, Zuyao You, Shiyi Lan, Zuxuan Wu

IJCAI 2024 Zero-Shot High-Fidelity and Pose-Controllable Character Animation Bingwen Zhu, Fanyi Wang, Tianyi Lu, Peng Liu, Jingwen Su, Jinxiu Liu, Yanhao Zhang, Zuxuan Wu, Guo-Jun Qi, Yu-Gang Jiang

CVPR 2023 Detection Hub: Unifying Object Detection Datasets via Query Adaptation on Language Embedding Lingchen Meng, Xiyang Dai, Yinpeng Chen, Pengchuan Zhang, Dongdong Chen, Mengchen Liu, Jianfeng Wang, Zuxuan Wu, Lu Yuan, Yu-Gang Jiang

CVPR 2023 Enhancing the Self-Universality for Transferable Targeted Attacks Zhipeng Wei, Jingjing Chen, Zuxuan Wu, Yu-Gang Jiang

ICCV 2023 Implicit Temporal Modeling with Learnable Alignment for Video Recognition Shuyuan Tu, Qi Dai, Zuxuan Wu, Zhi-Qi Cheng, Han Hu, Yu-Gang Jiang

NeurIPS 2023 Learning from Rich Semantics and Coarse Locations for Long-Tailed Object Detection Lingchen Meng, Xiyang Dai, Jianwei Yang, Dongdong Chen, Yinpeng Chen, Mengchen Liu, Yi-Ling Chen, Zuxuan Wu, Lu Yuan, Yu-Gang Jiang

CVPR 2023 Look Before You Match: Instance Understanding Matters in Video Object Segmentation Junke Wang, Dongdong Chen, Zuxuan Wu, Chong Luo, Chuanxin Tang, Xiyang Dai, Yucheng Zhao, Yujia Xie, Lu Yuan, Yu-Gang Jiang

CVPR 2023 Masked Video Distillation: Rethinking Masked Feature Modeling for Self-Supervised Video Representation Learning Rui Wang, Dongdong Chen, Zuxuan Wu, Yinpeng Chen, Xiyang Dai, Mengchen Liu, Lu Yuan, Yu-Gang Jiang

NeurIPS 2023 Multi-Prompt Alignment for Multi-Source Unsupervised Domain Adaptation Haoran Chen, Xintong Han, Zuxuan Wu, Yu-Gang Jiang

ICML 2023 Open-VCLIP: Transforming CLIP to an Open-Vocabulary Video Model via Interpolated Weight Optimization Zejia Weng, Xitong Yang, Ang Li, Zuxuan Wu, Yu-Gang Jiang

CVPR 2023 Prototypical Residual Networks for Anomaly Detection and Localization Hui Zhang, Zuxuan Wu, Zheng Wang, Zhineng Chen, Yu-Gang Jiang

CVPR 2023 ResFormer: Scaling ViTs with Multi-Resolution Training Rui Tian, Zuxuan Wu, Qi Dai, Han Hu, Yu Qiao, Yu-Gang Jiang

AAAI 2023 Resolving Task Confusion in Dynamic Expansion Architectures for Class Incremental Learning Bingchen Huang, Zhineng Chen, Peng Zhou, Jiayin Chen, Zuxuan Wu

CVPR 2023 SVFormer: Semi-Supervised Video Transformer for Action Recognition Zhen Xing, Qi Dai, Han Hu, Jingjing Chen, Zuxuan Wu, Yu-Gang Jiang

CVPR 2023 Towards Scalable Neural Representation for Diverse Videos Bo He, Xitong Yang, Hanyu Wang, Zuxuan Wu, Hao Chen, Shuaiyi Huang, Yixuan Ren, Ser-Nam Lim, Abhinav Shrivastava

CVPR 2023 Vision Transformers Are Good Mask Auto-Labelers Shiyi Lan, Xitong Yang, Zhiding Yu, Zuxuan Wu, Jose M. Alvarez, Anima Anandkumar

CVPR 2022 AdaViT: Adaptive Vision Transformers for Efficient Image Recognition Lingchen Meng, Hengduo Li, Bor-Chun Chen, Shiyi Lan, Zuxuan Wu, Yu-Gang Jiang, Ser-Nam Lim

AAAI 2022 Attacking Video Recognition Models with Bullet-Screen Comments Kai Chen, Zhipeng Wei, Jingjing Chen, Zuxuan Wu, Yu-Gang Jiang

CVPR 2022 BEVT: BERT Pretraining of Video Transformers Rui Wang, Dongdong Chen, Zuxuan Wu, Yinpeng Chen, Xiyang Dai, Mengchen Liu, Yu-Gang Jiang, Luowei Zhou, Lu Yuan

AAAI 2022 Boosting the Transferability of Video Adversarial Examples via Temporal Translation Zhipeng Wei, Jingjing Chen, Zuxuan Wu, Yu-Gang Jiang

CVPR 2022 Cross-Modal Transferable Adversarial Attacks from Images to Videos Zhipeng Wei, Jingjing Chen, Zuxuan Wu, Yu-Gang Jiang

ECCV 2022 Efficient Video Transformers with Spatial-Temporal Token Selection Junke Wang, Xitong Yang, Hengduo Li, Li Liu, Zuxuan Wu, Yu-Gang Jiang

WACV 2022 M3DETR: Multi-Representation, Multi-Scale, Mutual-Relation 3D Object Detection with Transformers Tianrui Guan, Jun Wang, Shiyi Lan, Rohan Chandra, Zuxuan Wu, Larry Davis, Dinesh Manocha

CVPR 2022 ObjectFormer for Image Manipulation Detection and Localization Junke Wang, Zuxuan Wu, Jingjing Chen, Xintong Han, Abhinav Shrivastava, Ser-Nam Lim, Yu-Gang Jiang

NeurIPS 2022 OmniVL: One Foundation Model for Image-Language and Video-Language Tasks Junke Wang, Dongdong Chen, Zuxuan Wu, Chong Luo, Luowei Zhou, Yucheng Zhao, Yujia Xie, Ce Liu, Yu-Gang Jiang, Lu Yuan

AAAI 2022 Rethinking Pseudo Labels for Semi-Supervised Object Detection Hengduo Li, Zuxuan Wu, Abhinav Shrivastava, Larry S. Davis

CVPR 2022 Robust Optimization as Data Augmentation for Large-Scale Graphs Kezhi Kong, Guohao Li, Mucong Ding, Zuxuan Wu, Chen Zhu, Bernard Ghanem, Gavin Taylor, Tom Goldstein

ECCV 2022 Semi-Supervised Single-View 3D Reconstruction via Prototype Shape Priors Zhen Xing, Hengduo Li, Zuxuan Wu, Yu-Gang Jiang

ECCV 2022 Semi-Supervised Vision Transformers Zejia Weng, Xitong Yang, Ang Li, Zuxuan Wu, Yu-Gang Jiang

AAAI 2022 Towards Transferable Adversarial Attacks on Vision Transformers Zhipeng Wei, Jingjing Chen, Micah Goldblum, Zuxuan Wu, Tom Goldstein, Yu-Gang Jiang

CVPR 2021 2D or Not 2D? Adaptive 3D Convolution Selection for Efficient Video Recognition Hengduo Li, Zuxuan Wu, Abhinav Shrivastava, Larry S. Davis

CVPR 2021 Efficient Object Embedding for Spliced Image Retrieval Bor-Chun Chen, Zuxuan Wu, Larry S. Davis, Ser-Nam Lim

NeurIPS 2021 Encoding Robustness to Image Style via Adversarial Feature Perturbations Manli Shu, Zuxuan Wu, Micah Goldblum, Tom Goldstein

ICCV 2021 Exploring Visual Engagement Signals for Representation Learning Menglin Jia, Zuxuan Wu, Austin Reiter, Claire Cardie, Serge Belongie, Ser-Nam Lim

CVPR 2021 Intentonomy: A Dataset and Study Towards Human Intent Understanding Menglin Jia, Zuxuan Wu, Austin Reiter, Claire Cardie, Serge Belongie, Ser-Nam Lim

ICCV 2021 VideoLT: Large-Scale Long-Tailed Video Recognition Xing Zhang, Zuxuan Wu, Zejia Weng, Huazhu Fu, Jingjing Chen, Yu-Gang Jiang, Larry S. Davis

ECCV 2020 Making an Invisibility Cloak: Real World Adversarial Attacks on Object Detectors Zuxuan Wu, Ser-Nam Lim, Larry S. Davis, Tom Goldstein

AAAI 2020 Recognizing Instagram Filtered Images with Feature De-Stylization Zhe Wu, Zuxuan Wu, Bharat Singh, Larry S. Davis

NeurIPS 2019 LiteEval: A Coarse-to-Fine Framework for Resource Efficient Video Recognition Zuxuan Wu, Caiming Xiong, Yu-Gang Jiang, Larry S. Davis

ICLR 2019 Self-Monitoring Navigation Agent via Auxiliary Progress Estimation Chih-Yao Ma, Jiasen Lu, Zuxuan Wu, Ghassan AlRegib, Zsolt Kira, Richard Socher, Caiming Xiong

WACV 2019 Weakly-Supervised Spatial Context Networks Zuxuan Wu, Larry Davis, Leonid Sigal

ECCV 2018 DCAN: Dual Channel-Wise Alignment Networks for Unsupervised Scene Adaptation Zuxuan Wu, Xintong Han, Yen-Liang Lin, Mustafa Gokhan Uzunbas, Tom Goldstein, Ser Nam Lim, Larry S. Davis

ICCV 2017 Automatic Spatially-Aware Fashion Concept Discovery Xintong Han, Zuxuan Wu, Phoenix X. Huang, Xiao Zhang, Menglong Zhu, Yuan Li, Yang Zhao, Larry S. Davis

CVPR 2016 Harnessing Object and Scene Semantics for Large-Scale Video Understanding Zuxuan Wu, Yanwei Fu, Yu-Gang Jiang, Leonid Sigal