Xie, Enze

50 publications

TMLR 2025 AlgoFormer: An Efficient Transformer Framework with Algorithmic Structures Yihang Gao, Chuanyang Zheng, Enze Xie, Han Shi, Tianyang Hu, Yu Li, Michael Ng, Zhenguo Li, Zhaoqiang Liu

ICCV 2025 DC-AE 1.5: Accelerating Diffusion Model Convergence with Structured Latent Space Junyu Chen, Dongyun Zou, Wenkun He, Junsong Chen, Enze Xie, Song Han, Han Cai

ICCV 2025 DC-AR: Efficient Masked Autoregressive Image Generation with Deep Compression Hybrid Tokenizer Yecheng Wu, Han Cai, Junyu Chen, Zhuoyang Zhang, Enze Xie, Jincheng Yu, Junsong Chen, Jinyi Hu, Yao Lu, Song Han

ICLR 2025 Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models Junyu Chen, Han Cai, Junsong Chen, Enze Xie, Shang Yang, Haotian Tang, Muyang Li, Song Han

ICLR 2025 HART: Efficient Visual Generation with Hybrid Autoregressive Transformer Haotian Tang, Yecheng Wu, Shang Yang, Enze Xie, Junsong Chen, Junyu Chen, Zhuoyang Zhang, Han Cai, Yao Lu, Song Han

ICML 2025 SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer Enze Xie, Junsong Chen, Yuyang Zhao, Jincheng Yu, Ligeng Zhu, Yujun Lin, Zhekai Zhang, Muyang Li, Junyu Chen, Han Cai, Bingchen Liu, Daquan Zhou, Song Han

ICCV 2025 SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation Junsong Chen, Shuchen Xue, Yuyang Zhao, Jincheng Yu, Sayak Paul, Junyu Chen, Han Cai, Song Han, Enze Xie

ICLR 2025 SANA: Efficient High-Resolution Text-to-Image Synthesis with Linear Diffusion Transformers Enze Xie, Junsong Chen, Junyu Chen, Han Cai, Haotian Tang, Yujun Lin, Zhekai Zhang, Muyang Li, Ligeng Zhu, Yao Lu, Song Han

ICLR 2025 SVDQuant: Absorbing Outliers by Low-Rank Component for 4-Bit Diffusion Models Muyang Li, Yujun Lin, Zhekai Zhang, Tianle Cai, Xiuyu Li, Junxian Guo, Enze Xie, Chenlin Meng, Jun-Yan Zhu, Song Han

CVPRW 2025 SplatMesh: Interactive 3D Segmentation and Editing Using Mesh-Based Gaussian Splatting Kaichen Zhou, Lanqing Hong, Xinhai Chang, Yingji Zhong, Enze Xie, Hao Dong, Zhihao Li, Yongxin Yang, Zhenguo Li, Wei Zhang

ICLR 2025 VILA-U: A Unified Foundation Model Integrating Visual Understanding and Generation Yecheng Wu, Zhuoyang Zhang, Junyu Chen, Haotian Tang, Dacheng Li, Yunhao Fang, Ligeng Zhu, Enze Xie, Hongxu Yin, Li Yi, Song Han, Yao Lu

CVPR 2024 Accelerating Diffusion Sampling with Optimized Time Steps Shuchen Xue, Zhaoqiang Liu, Fei Chen, Shifeng Zhang, Tianyang Hu, Enze Xie, Zhenguo Li

ICLR 2024 DQ-LoRe: Dual Queries with Low Rank Approximation Re-Ranking for In-Context Learning Jing Xiong, Zixuan Li, Chuanyang Zheng, Zhijiang Guo, Yichun Yin, Enze Xie, Zhicheng Yang, Qingxing Cao, Haiming Wang, Xiongwei Han, Jing Tang, Chengming Li, Xiaodan Liang

AAAI 2024 DeepAccident: A Motion and Accident Prediction Benchmark for V2X Autonomous Driving Tianqi Wang, Sukmin Kim, Wenxuan Ji, Enze Xie, Chongjian Ge, Junsong Chen, Zhenguo Li, Ping Luo

ECCV 2024 Fast Training of Diffusion Transformer with Extreme Masking for 3D Point Clouds Generation Shentong Mo, Enze Xie, Yue Wu, Junsong Chen, Matthias Niessner, Zhenguo Li

ICLR 2024 GeoDiffusion: Text-Prompted Geometric Control for Object Detection Data Generation Kai Chen, Enze Xie, Zhe Chen, Yibo Wang, Lanqing Hong, Zhenguo Li, Dit-Yan Yeung

ICLR 2024 LEGO-Prover: Neural Theorem Proving with Growing Libraries Haiming Wang, Huajian Xin, Chuanyang Zheng, Zhengying Liu, Qingxing Cao, Yinya Huang, Jing Xiong, Han Shi, Enze Xie, Jian Yin, Zhenguo Li, Xiaodan Liang

ICLR 2024 Large Language Models as Automated Aligners for Benchmarking Vision-Language Models Yuanfeng Ji, Chongjian Ge, Weikai Kong, Enze Xie, Zhengying Liu, Zhenguo Li, Ping Luo

TMLR 2024 Lyra: Orchestrating Dual Correction in Automated Theorem Proving Chuanyang Zheng, Haiming Wang, Enze Xie, Zhengying Liu, Jiankai Sun, Huajian Xin, Jianhao Shen, Zhenguo Li, Yu Li

ICLR 2024 MagicDrive: Street View Generation with Diverse 3D Geometry Control Ruiyuan Gao, Kai Chen, Enze Xie, Lanqing Hong, Zhenguo Li, Dit-Yan Yeung, Qiang Xu

ICMLW 2024 PIXART-Δ: Fast and Controllable Image Generation with Latent Consistency Models Junsong Chen, Simian Luo, Enze Xie

ICLR 2024 PixArt-$\alpha$: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis Junsong Chen, Jincheng Yu, Chongjian Ge, Lewei Yao, Enze Xie, Zhongdao Wang, James Kwok, Ping Luo, Huchuan Lu, Zhenguo Li

ECCV 2024 PixArt-Sigma: Weak-to-Strong Training of Diffusion Transformer for 4k Text-to-Image Generation Junsong Chen, Chongjian Ge, Enze Xie, Yue Wu, Lewei Yao, Xiaozhe Ren, Zhongdao Wang, Ping Luo, Huchuan Lu, Zhenguo Li

ICMLW 2024 Progressive-Hint Prompting Improves Reasoning in Large Language Models Chuanyang Zheng, Zhengying Liu, Enze Xie, Zhenguo Li, Yu Li

ECCV 2024 Segment, Lift and Fit: Automatic 3D Shape Labeling from 2D Prompts Jianhao Li, Tianyu Sun, Zhongdao Wang, Enze Xie, Bailan Feng, Hongbo Zhang, Ze Yuan, Ke Xu, Jiaheng Liu, Ping Luo

ICCV 2023 Beyond One-to-One: Rethinking the Referring Image Segmentation Yutao Hu, Qixiong Wang, Wenqi Shao, Enze Xie, Zhenguo Li, Jungong Han, Ping Luo

ICCV 2023 DDP: Diffusion Model for Dense Visual Prediction Yuanfeng Ji, Zhe Chen, Enze Xie, Lanqing Hong, Xihui Liu, Zhaoqiang Liu, Tong Lu, Zhenguo Li, Ping Luo

NeurIPS 2023 DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation Shentong Mo, Enze Xie, Ruihang Chu, Lanqing Hong, Matthias Niessner, Zhenguo Li

NeurIPS 2023 DiffComplete: Diffusion-Based Generative 3D Shape Completion Ruihang Chu, Enze Xie, Shentong Mo, Zhenguo Li, Matthias Niessner, Chi-Wing Fu, Jiaya Jia

ICCV 2023 DiffFit: Unlocking Transferability of Large Diffusion Models via Simple Parameter-Efficient Fine-Tuning Enze Xie, Lewei Yao, Han Shi, Zhili Liu, Daquan Zhou, Zhaoqiang Liu, Jiawei Li, Zhenguo Li

NeurIPS 2023 Flow-Based Feature Fusion for Vehicle-Infrastructure Cooperative 3D Object Detection Haibao Yu, Yingjuan Tang, Enze Xie, Jilei Mao, Ping Luo, Zaiqing Nie

ICCV 2023 MetaBEV: Solving Sensor Failures for 3D Detection and mAP Segmentation Chongjian Ge, Junsong Chen, Enze Xie, Zhongdao Wang, Lanqing Hong, Huchuan Lu, Zhenguo Li, Ping Luo

ICCV 2023 Parametric Depth Based Feature Representation Learning for Object Detection and Segmentation in Bird's-Eye View Jiayu Yang, Enze Xie, Miaomiao Liu, Jose M. Alvarez

NeurIPS 2023 T2I-CompBench: A Comprehensive Benchmark for Open-World Compositional Text-to-Image Generation Kaiyi Huang, Kaiyue Sun, Enze Xie, Zhenguo Li, Xihui Liu

ECCV 2022 BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers Zhiqi Li, Wenhai Wang, Hongyang Li, Enze Xie, Chonghao Sima, Tong Lu, Yu Qiao, Jifeng Dai

ICLR 2022 CycleMLP: A MLP-like Architecture for Dense Prediction Shoufa Chen, Enze Xie, Chongjian Ge, Runjian Chen, Ding Liang, Ping Luo

CVPR 2022 Panoptic SegFormer: Delving Deeper into Panoptic Segmentation with Transformers Zhiqi Li, Wenhai Wang, Enze Xie, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo, Tong Lu

AAAI 2022 Towards Ultra-Resolution Neural Style Transfer via Thumbnail Instance Normalization Zhe Chen, Wenhai Wang, Enze Xie, Tong Lu, Ping Luo

ICML 2022 Understanding the Robustness in Vision Transformers Daquan Zhou, Zhiding Yu, Enze Xie, Chaowei Xiao, Animashree Anandkumar, Jiashi Feng, Jose M. Alvarez

ICCV 2021 DetCo: Unsupervised Contrastive Learning for Object Detection Enze Xie, Jian Ding, Wenhai Wang, Xiaohang Zhan, Hang Xu, Peize Sun, Zhenguo Li, Ping Luo

ICCV 2021 Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction Without Convolutions Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, Ling Shao

NeurIPS 2021 SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers Enze Xie, Wenhai Wang, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo

IJCAI 2021 Segmenting Transparent Objects in the Wild with Transformer Enze Xie, Wenjia Wang, Wenhai Wang, Peize Sun, Hang Xu, Ding Liang, Ping Luo

ICCV 2021 Watch Only Once: An End-to-End Video Action Detection Framework Shoufa Chen, Peize Sun, Enze Xie, Chongjian Ge, Jiannan Wu, Lan Ma, Jiajun Shen, Ping Luo

ICML 2021 What Makes for End-to-End Object Detection? Peize Sun, Yi Jiang, Enze Xie, Wenqi Shao, Zehuan Yuan, Changhu Wang, Ping Luo

ECCV 2020 AE TextSpotter: Learning Visual and Linguistic Representation for Ambiguous Text Spotting Wenhai Wang, Xuebo Liu, Xiaozhong Ji, Enze Xie, Ding Liang, ZhiBo Yang, Tong Lu, Chunhua Shen, Ping Luo

ECCV 2020 Differentiable Hierarchical Graph Grouping for Multi-Person Pose Estimation Sheng Jin, Wentao Liu, Enze Xie, Wenhai Wang, Chen Qian, Wanli Ouyang, Ping Luo

ECCV 2020 Scene Text Image Super-Resolution in the Wild Wenjia Wang, Enze Xie, Xuebo Liu, Wenhai Wang, Ding Liang, Chunhua Shen, Xiang Bai

ECCV 2020 Segmenting Transparent Objects in the Wild Enze Xie, Wenjia Wang, Wenhai Wang, Mingyu Ding, Chunhua Shen, Ping Luo

AAAI 2019 Scene Text Detection with Supervised Pyramid Context Network Enze Xie, Yuhang Zang, Shuai Shao, Gang Yu, Cong Yao, Guangyao Li