Liu, Xihui

63 publications

ICLR 2025 Accelerating Auto-Regressive Text-to-Image Generation with Training-Free Speculative Jacobi Decoding Yao Teng, Han Shi, Xian Liu, Xuefei Ning, Guohao Dai, Yu Wang, Zhenguo Li, Xihui Liu

ICCV 2025 Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation Yuqing Wang, Zhijie Lin, Yao Teng, Yuanzhi Zhu, Shuhuai Ren, Jiashi Feng, Xihui Liu

ICCV 2025 DreamCube: RGB-D Panorama Generation via Multi-Plane Synchronization Yukun Huang, Yanning Zhou, Jianan Wang, Kaiyi Huang, Xihui Liu

ICCV 2025 GameFactory: Creating New Games with Generative Interactive Videos Jiwen Yu, Yiran Qin, Xintao Wang, Pengfei Wan, Di Zhang, Xihui Liu

ICCV 2025 GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation Tianwei Xiong, Jun Hao Liew, Zilong Huang, Jiashi Feng, Xihui Liu

NeurIPS 2025 GoT: Unleashing Reasoning Capability of MLLM for Visual Generation and Editing Rongyao Fang, Chengqi Duan, Kun Wang, Linjiang Huang, Hao Li, Hao Tian, Shilin Yan, Weihao Yu, Xingyu Zeng, Jifeng Dai, Xihui Liu, Hongsheng Li

CVPR 2025 HMAR: Efficient Hierarchical Masked Auto-Regressive Image Generation Hermann Kumbong, Xian Liu, Tsung-Yi Lin, Ming-Yu Liu, Xihui Liu, Ziwei Liu, Daniel Y. Fu, Christopher Re, David W. Romero

ICCV 2025 LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D Capabilities Chenming Zhu, Tai Wang, Wenwei Zhang, Jiangmiao Pang, Xihui Liu

ICCV 2025 LiT: Delving into a Simple Linear Diffusion Transformer for Image Generation Jiahao Wang, Ning Kang, Lewei Yao, Mengzhao Chen, Chengyue Wu, Songyang Zhang, Shuchen Xue, Yong Liu, Taiqiang Wu, Xihui Liu, Kaipeng Zhang, Shifeng Zhang, Wenqi Shao, Zhenguo Li, Ping Luo

CVPR 2025 MBQ: Modality-Balanced Quantization for Large Vision-Language Models Shiyao Li, Yingchun Hu, Xuefei Ning, Xihui Liu, Ke Hong, Xiaotao Jia, Xiuhong Li, Yaqi Yan, Pei Ran, Guohao Dai, Shengen Yan, Huazhong Yang, Yu Wang

CVPR 2025 MIDI: Multi-Instance Diffusion for Single Image to 3D Scene Generation Zehuan Huang, Yuan-Chen Guo, Xingqiao An, Yunhan Yang, Yangguang Li, Zi-Xin Zou, Ding Liang, Xihui Liu, Yan-Pei Cao, Lu Sheng

ICCV 2025 Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos Yi Chen, Yuying Ge, Weiliang Tang, Yizhuo Li, Yixiao Ge, Mingyu Ding, Ying Shan, Xihui Liu

NeurIPS 2025 OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-Temporal Scene Understanding Jingli Lin, Chenming Zhu, Runsen Xu, Xiaohan Mao, Xihui Liu, Tai Wang, Jiangmiao Pang

ICCV 2025 PUMA: Empowering Unified MLLM with Multi-Granular Visual Generation Rongyao Fang, Chengqi Duan, Kun Wang, Hao Li, Linjiang Huang, Hao Tian, Xingyu Zeng, Rui Zhao, Jifeng Dai, Hongsheng Li, Xihui Liu

CVPR 2025 Parallelized Autoregressive Visual Generation Yuqing Wang, Shuhuai Ren, Zhijie Lin, Yujin Han, Haoyuan Guo, Zhenheng Yang, Difan Zou, Jiashi Feng, Xihui Liu

ICCV 2025 RoboFactory: Exploring Embodied Agent Collaboration with Compositional Constraints Yiran Qin, Li Kang, Xiufeng Song, Zhenfei Yin, Xiaohong Liu, Xihui Liu, Ruimao Zhang, Lei Bai

NeurIPS 2025 Speculative Jacobi-Denoising Decoding for Accelerating Autoregressive Text-to-Image Generation Yao Teng, Fu-Yun Wang, Xian Liu, Zhekai Chen, Han Shi, Yu Wang, Zhenguo Li, Weiyang Liu, Difan Zou, Xihui Liu

CVPR 2025 T2ISafety: Benchmark for Assessing Fairness, Toxicity, and Privacy in Image Generation Lijun Li, Zhelun Shi, Xuhao Hu, Bowen Dong, Yiran Qin, Xihui Liu, Lu Sheng, Jing Shao

CVPR 2025 T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-Video Generation Kaiyue Sun, Kaiyi Huang, Xian Liu, Yue Wu, Zihan Xu, Zhenguo Li, Xihui Liu

NeurIPS 2025 TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Generation Zhekai Chen, Ruihang Chu, Yukang Chen, Shiwei Zhang, Yujie Wei, Yingya Zhang, Xihui Liu

NeurIPS 2025 Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation Xiaoyu Yue, ZiDong Wang, Yuqing Wang, Wenlong Zhang, Xihui Liu, Wanli Ouyang, Lei Bai, Luping Zhou

ICML 2025 UniMC: Taming Diffusion Transformer for Unified Keypoint-Guided Multi-Class Image Generation Qin Guo, Ailing Zeng, Dongxu Yue, Ceyuan Yang, Yang Cao, Hanzhong Guo, Fei Shen, Wei Liu, Xihui Liu, Dan Xu

ICCV 2025 V2PE: Improving Multimodal Long-Context Capability of Vision-Language Models with Variable Visual Position Encoding Junqi Ge, Ziyi Chen, Jintao Lin, Jinguo Zhu, Xihui Liu, Jifeng Dai, Xizhou Zhu

NeurIPS 2025 Wan-Move: Motion-Controllable Video Generation via Latent Trajectory Guidance Ruihang Chu, Yefei He, Zhekai Chen, Shiwei Zhang, Xiaogang Xu, Bin Xia, Dingdong Wang, Hongwei Yi, Xihui Liu, Hengshuang Zhao, Yu Liu, Yingya Zhang, Yujiu Yang

ICML 2025 WorldSimBench: Towards Video Generation Models as World Simulators Yiran Qin, Zhelun Shi, Jiwen Yu, Xijun Wang, Enshen Zhou, Lijun Li, Zhenfei Yin, Xihui Liu, Lu Sheng, Jing Shao, Lei Bai, Ruimao Zhang

NeurIPS 2024 4Diffusion: Multi-View Video Diffusion Model for 4D Generation Haiyu Zhang, Xinyuan Chen, Yaohui Wang, Xihui Liu, Yunhong Wang, Yu Qiao

NeurIPS 2024 BEACON: Benchmark for Comprehensive RNA Tasks and Language Models Yuchen Ren, Zhiyuan Chen, Lifeng Qiao, Hongtai Jing, Yuchen Cai, Sheng Xu, Peng Ye, Xinzhu Ma, Siqi Sun, Hongliang Yan, Dong Yuan, Wanli Ouyang, Xihui Liu

CVPR 2024 DreamComposer: Controllable 3D Object Generation via Multi-View Conditions Yunhan Yang, Yukun Huang, Xiaoyang Wu, Yuan-Chen Guo, Song-Hai Zhang, Hengshuang Zhao, Tong He, Xihui Liu

CVPR 2024 EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards Embodied AI Tai Wang, Xiaohan Mao, Chenming Zhu, Runsen Xu, Ruiyuan Lyu, Peisen Li, Xiao Chen, Wenwei Zhang, Kai Chen, Tianfan Xue, Xihui Liu, Cewu Lu, Dahua Lin, Jiangmiao Pang

ICML 2024 FiT: Flexible Vision Transformer for Diffusion Model Zeyu Lu, Zidong Wang, Di Huang, Chengyue Wu, Xihui Liu, Wanli Ouyang, Lei Bai

NeurIPS 2024 GenArtist: Multimodal LLM as an Agent for Unified Image Generation and Editing Zhenyu Wang, Aoxue Li, Zhenguo Li, Xihui Liu

WACV 2024 Hierarchical Diffusion Autoencoders and Disentangled Image Manipulation Zeyu Lu, Chengyue Wu, Xinyuan Chen, Yaohui Wang, Lei Bai, Yu Qiao, Xihui Liu

CVPR 2024 HumanGaussian: Text-Driven 3D Human Generation with Gaussian Splatting Xian Liu, Xiaohang Zhan, Jiaxiang Tang, Ying Shan, Gang Zeng, Dahua Lin, Xihui Liu, Ziwei Liu

ICLR 2024 HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion Xian Liu, Jian Ren, Aliaksandr Siarohin, Ivan Skorokhodov, Yanyu Li, Dahua Lin, Xihui Liu, Ziwei Liu, Sergey Tulyakov

NeurIPS 2024 LVD-2M: A Long-Take Video Dataset with Temporally Dense Captions Tianwei Xiong, Yuqing Wang, Daquan Zhou, Zhijie Lin, Jiashi Feng, Xihui Liu

CVPR 2024 Point Transformer V3: Simpler Faster Stronger Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao

ECCV 2024 PredBench: Benchmarking Spatio-Temporal Prediction Across Diverse Disciplines ZiDong Wang, Zeyu Lu, Di Huang, Tong He, Xihui Liu, Wanli Ouyang, Lei Bai

ECCV 2024 ScanReason: Empowering 3D Visual Grounding with Reasoning Capabilities Chenming Zhu, Tai Wang, Wenwei Zhang, Kai Chen, Xihui Liu

NeurIPS 2024 Scene Graph Disentanglement and Composition for Generalizable Complex Image Generation Yunnan Wang, Ziqiang Li, Wenyao Zhang, Zequn Zhang, Baao Xie, Xihui Liu, Wenjun Zeng, Xin Jin

WACV 2024 Shape-Guided Diffusion with Inside-Outside Attention Dong Huk Park, Grace Luo, Clayton Toste, Samaneh Azadi, Xihui Liu, Maka Karalashvili, Anna Rohrbach, Trevor Darrell

ECCV 2024 TC4D: Trajectory-Conditioned Text-to-4D Generation Sherwin Bahmani, Xian Liu, Wang Yifan, Ivan Skorokhodov, Victor Rong, Ziwei Liu, Xihui Liu, Jeong Joon Park, Sergey Tulyakov, Gordon Wetzstein, Andrea Tagliasacchi, David B Lindell

CVPR 2024 Towards Large-Scale 3D Representation Learning with Multi-Dataset Point Prompt Training Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao

CVPR 2023 Back to the Source: Diffusion-Driven Adaptation to Test-Time Corruption Jin Gao, Jialing Zhang, Xihui Liu, Trevor Darrell, Evan Shelhamer, Dequan Wang

NeurIPS 2023 CorresNeRF: Image Correspondence Priors for Neural Radiance Fields Yixing Lao, Xiaogang Xu, Zhipeng Cai, Xihui Liu, Hengshuang Zhao

ICCV 2023 DDP: Diffusion Model for Dense Visual Prediction Yuanfeng Ji, Zhe Chen, Enze Xie, Lanqing Hong, Xihui Liu, Zhaoqiang Liu, Tong Lu, Zhenguo Li, Ping Luo

CVPR 2023 GLeaD: Improving GANs with a Generator-Leading Task Qingyan Bai, Ceyuan Yang, Yinghao Xu, Xihui Liu, Yujiu Yang, Yujun Shen

CVPR 2023 Learning Transferable Spatiotemporal Representations from Natural Script Knowledge Ziyun Zeng, Yuying Ge, Xihui Liu, Bin Chen, Ping Luo, Shu-Tao Xia, Yixiao Ge

CVPR 2023 Masked Scene Contrast: A Scalable Framework for Unsupervised 3D Representation Learning Xiaoyang Wu, Xin Wen, Xihui Liu, Hengshuang Zhao

WACV 2023 More Control for Free! Image Synthesis with Semantic Diffusion Guidance Xihui Liu, Dong Huk Park, Samaneh Azadi, Gong Zhang, Arman Chopikyan, Yuxiao Hu, Humphrey Shi, Anna Rohrbach, Trevor Darrell

NeurIPS 2023 OV-PARTS: Towards Open-Vocabulary Part Segmentation Meng Wei, Xiaoyu Yue, Wenwei Zhang, Shu Kong, Xihui Liu, Jiangmiao Pang

CVPR 2023 RIFormer: Keep Your Vision Backbone Effective but Removing Token Mixer Jiahao Wang, Songyang Zhang, Yong Liu, Taiqiang Wu, Yujiu Yang, Xihui Liu, Kai Chen, Ping Luo, Dahua Lin

NeurIPS 2023 Seeing Is Not Always Believing: Benchmarking Human and Model Perception of AI-Generated Images Zeyu Lu, Di Huang, Lei Bai, Jingjing Qu, Chengyue Wu, Xihui Liu, Wanli Ouyang

NeurIPS 2023 T2I-CompBench: A Comprehensive Benchmark for Open-World Compositional Text-to-Image Generation Kaiyi Huang, Kaiyue Sun, Enze Xie, Zhenguo Li, Xihui Liu

CVPR 2022 Bridging Video-Text Retrieval with Multiple Choice Questions Yuying Ge, Yixiao Ge, Xihui Liu, Dian Li, Ying Shan, Xiaohu Qie, Ping Luo

ECCV 2022 MILES: Visual BERT Pre-Training with Injected Language Semantics for Video-Text Retrieval Yuying Ge, Yixiao Ge, Xihui Liu, Jinpeng Wang, Jianping Wu, Ying Shan, Xiaohu Qie, Ping Luo

NeurIPS 2022 Point Transformer V2: Grouped Vector Attention and Partition-Based Pooling Xiaoyang Wu, Yixing Lao, Li Jiang, Xihui Liu, Hengshuang Zhao

ECCV 2020 Open-Edit: Open-Domain Image Manipulation with Open-Vocabulary Instructions Xihui Liu, Zhe Lin, Jianming Zhang, Handong Zhao, Quan Tran, Xiaogang Wang, Hongsheng Li

NeurIPS 2019 Learning to Predict Layout-to-Image Conditional Convolutions for Semantic Image Synthesis Xihui Liu, Guojun Yin, Jing Shao, Xiaogang Wang, Hongsheng Li

ECCV 2018 Improving Deep Visual Representation for Person Re-Identification by Global and Local Image-Language Association Dapeng Chen, Hongsheng Li, Xihui Liu, Yantao Shen, Jing Shao, Zejian Yuan, Xiaogang Wang

ECCV 2018 Show, Tell and Discriminate: Image Captioning by Self-Retrieval with Partially Labeled Data Xihui Liu, Hongsheng Li, Jing Shao, Dapeng Chen, Xiaogang Wang

ICCV 2017 HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis Xihui Liu, Haiyu Zhao, Maoqing Tian, Lu Sheng, Jing Shao, Shuai Yi, Junjie Yan, Xiaogang Wang

CVPR 2017 Object Detection in Videos with Tubelet Proposal Networks Kai Kang, Hongsheng Li, Tong Xiao, Wanli Ouyang, Junjie Yan, Xihui Liu, Xiaogang Wang

ICCV 2017 Orientation Invariant Feature Embedding and Spatial Temporal Regularization for Vehicle Re-Identification Zhongdao Wang, Luming Tang, Xihui Liu, Zhuliang Yao, Shuai Yi, Jing Shao, Junjie Yan, Shengjin Wang, Hongsheng Li, Xiaogang Wang