Tu, Zhuowen

112 publications

ICCV 2025 DepR: Depth Guided Single-View Scene Reconstruction with Instance-Level Diffusion Qingcheng Zhao, Xiang Zhang, Haiyang Xu, Zeyuan Chen, Jianwen Xie, Yuan Gao, Zhuowen Tu

CVPR 2025 Ground-V: Teaching VLMs to Ground Complex Instructions in Pixels Yongshuo Zong, Qin Zhang, Dongsheng An, Zhihua Li, Xiang Xu, Linghan Xu, Zhuowen Tu, Yifan Xing, Onkar Dabeer

ICCV 2025 Lay-Your-Scene: Natural Scene Layout Generation with Diffusion Transformers Divyansh Srivastava, Xiang Zhang, He Wen, Chenru Wen, Zhuowen Tu

NeurIPS 2025 OverLayBench: A Benchmark for Layout-to-Image Generation with Dense Overlaps Bingnan Li, Chen-Yu Wang, Haiyang Xu, Xiang Zhang, Ethan J. Armand, Divyansh Srivastava, Xiaojun Shan, Zeyuan Chen, Jianwen Xie, Zhuowen Tu

NeurIPS 2025 Salient Concept-Aware Generative Data Augmentation Tianchen Zhao, Xuanbai Chen, Zhihua Li, Jun Fang, Dongsheng An, Xiang Xu, Zhuowen Tu, Yifan Xing

ICCV 2025 YOLO-Count: Differentiable Object Counting for Text-to-Image Generation Guanning Zeng, Xiang Zhang, Zirui Wang, Haiyang Xu, Zeyuan Chen, Bingnan Li, Zhuowen Tu

CVPRW 2024 AffordanceLLM: Grounding Affordance from Vision Language Models Shengyi Qian, Weifeng Chen, Min Bai, Xiong Zhou, Zhuowen Tu, Li Erran Li

AAAI 2024 BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions Wenbo Hu, Yifan Xu, Yi Li, Weiyue Li, Zeyuan Chen, Zhuowen Tu

CVPR 2024 Bayesian Diffusion Models for 3D Shape Reconstruction Haiyang Xu, Yu Lei, Zeyuan Chen, Xiang Zhang, Yue Zhao, Yilin Wang, Zhuowen Tu

ECCV 2024 Dolfin: Diffusion Layout Transformers Without Autoencoder Yilin Wang, Zeyuan Chen, Liangjun Zhong, Zheng Ding, Zhuowen Tu

CVPR 2024 Enhancing Vision-Language Pre-Training with Rich Supervisions Yuan Gao, Kunyu Shi, Pengkai Zhu, Edouard Belval, Oren Nuriel, Srikar Appalaraju, Shabnam Ghadar, Zhuowen Tu, Vijay Mahadevan, Stefano Soatto

CVPR 2024 HOIDiffusion: Generating Realistic 3D Hand-Object Interaction Data Mengqi Zhang, Yang Fu, Zheng Ding, Sifei Liu, Zhuowen Tu, Xiaolong Wang

CVPR 2024 Non-Autoregressive Sequence-to-Sequence Vision-Language Models Kunyu Shi, Qi Dong, Luis Goncalves, Zhuowen Tu, Stefano Soatto

CVPRW 2024 OmniControlNet: Dual-Stage Integration for Conditional Image Generation Yilin Wang, Haiyang Xu, Xiang Zhang, Zeyuan Chen, Zhizhou Sha, Zirui Wang, Zhuowen Tu

CVPR 2024 On the Scalability of Diffusion-Based Text-to-Image Generation Hao Li, Yang Zou, Ying Wang, Orchid Majumder, Yusheng Xie, R. Manmatha, Ashwin Swaminathan, Zhuowen Tu, Stefano Ermon, Stefano Soatto

ECCV 2024 Open-World Dynamic Prompt and Continual Visual Representation Learning Youngeun Kim, Jun Fang, Qin Zhang, Zhaowei Cai, Yantao Shen, Rahul Duggal, Dripta S. Raychaudhuri, Zhuowen Tu, Yifan Xing, Onkar Dabeer

ICLR 2024 Patched Denoising Diffusion Models for High-Resolution Image Synthesis Zheng Ding, Mengqi Zhang, Jiajun Wu, Zhuowen Tu

CVPR 2024 Restoration by Generation with Constrained Priors Zheng Ding, Xuaner Zhang, Zhuowen Tu, Zhihao Xia

CVPR 2024 TokenCompose: Text-to-Image Diffusion with Token-Level Supervision Zirui Wang, Zhizhou Sha, Zheng Ding, Yilin Wang, Zhuowen Tu

CVPR 2023 DiffusionRig: Learning Personalized Priors for Facial Appearance Editing Zheng Ding, Xuaner Zhang, Zhihao Xia, Lars Jebe, Zhuowen Tu, Xiuming Zhang

ICCV 2023 Distilling Large Vision-Language Model with Out-of-Distribution Generalizability Xuanlin Li, Yunhao Fang, Minghua Liu, Zhan Ling, Zhuowen Tu, Hao Su

ICCV 2023 DocTr: Document Transformer for Structured Information Extraction in Documents Haofu Liao, Aruni RoyChowdhury, Weijian Li, Ankan Bansal, Yuting Zhang, Zhuowen Tu, Ravi Kumar Satzoda, R. Manmatha, Vijay Mahadevan

CVPR 2023 Guided Recommendation for Model Fine-Tuning Hao Li, Charless Fowlkes, Hao Yang, Onkar Dabeer, Zhuowen Tu, Stefano Soatto

ICCV 2023 MasQCLIP for Open-Vocabulary Universal Image Segmentation Xin Xu, Tianyi Xiong, Zheng Ding, Zhuowen Tu

ICCV 2023 Object-Centric Multiple Object Tracking Zixu Zhao, Jiaze Wang, Max Horn, Yizhuo Ding, Tong He, Zechen Bai, Dominik Zietlow, Carl-Johann Simon-Gabriel, Bing Shuai, Zhuowen Tu, Thomas Brox, Bernt Schiele, Yanwei Fu, Francesco Locatello, Zheng Zhang, Tianjun Xiao

ICLR 2023 On the Feasibility of Cross-Task Transfer with Model-Based Reinforcement Learning Yifan Xu, Nicklas Hansen, Zirui Wang, Yung-Chieh Chan, Hao Su, Zhuowen Tu

ICML 2023 Open-Vocabulary Universal Image Segmentation with MaskCLIP Zheng Ding, Jieke Wang, Zhuowen Tu

ICCV 2023 Single-Stage Diffusion NeRF: A Unified Approach to 3D Generation and Reconstruction Hansheng Chen, Jiatao Gu, Anpei Chen, Wei Tian, Zhuowen Tu, Lingjie Liu, Hao Su

ICCV 2023 SkeleTR: Towards Skeleton-Based Action Recognition in the Wild Haodong Duan, Mingze Xu, Bing Shuai, Davide Modolo, Zhuowen Tu, Joseph Tighe, Alessandro Bergamo

ICCV 2023 Uni-3D: A Universal Model for Panoptic 3D Scene Reconstruction Xiang Zhang, Zeyuan Chen, Fangyin Wei, Zhuowen Tu

NeurIPS 2022 An In-Depth Study of Stochastic Backpropagation Jun Fang, Mingze Xu, Hao Chen, Bing Shuai, Zhuowen Tu, Joseph Tighe

CVPR 2022 Instance Segmentation with Mask-Supervised Polygonal Boundary Transformers Justin Lazarow, Weijian Xu, Zhuowen Tu

CVPR 2022 MeMOT: Multi-Object Tracking with Memory Jiarui Cai, Mingze Xu, Wei Li, Yuanjun Xiong, Wei Xia, Zhuowen Tu, Stefano Soatto

NeurIPSW 2022 On the Feasibility of Cross-Task Transfer with Model-Based Reinforcement Learning Yifan Xu, Nicklas Hansen, Zirui Wang, Yung-Chieh Chan, Hao Su, Zhuowen Tu

NeurIPSW 2022 On the Feasibility of Cross-Task Transfer with Model-Based Reinforcement Learning Yifan Xu, Nicklas Hansen, Zirui Wang, Yung-Chieh Chan, Hao Su, Zhuowen Tu

NeurIPS 2022 Semi-Supervised Vision Transformers at Scale Zhaowei Cai, Avinash Ravichandran, Paolo Favaro, Manchen Wang, Davide Modolo, Rahul Bhotika, Zhuowen Tu, Stefano Soatto

CVPR 2022 Text Spotting Transformers Xiang Zhang, Yongwen Su, Subarna Tripathi, Zhuowen Tu

ICLR 2022 ViTGAN: Training GANs with Vision Transformers Kwonjoon Lee, Huiwen Chang, Lu Jiang, Han Zhang, Zhuowen Tu, Ce Liu

ECCV 2022 X-DETR: A Versatile Architecture for Instance-Wise Vision-Language Tasks Zhaowei Cai, Gukyeong Kwon, Avinash Ravichandran, Erhan Bas, Zhuowen Tu, Rahul Bhotika, Stefano Soatto

ICLR 2021 Attentional Constellation Nets for Few-Shot Learning Weijian Xu, Yifan Xu, Huaijin Wang, Zhuowen Tu

ICCV 2021 Co-Scale Conv-Attentional Image Transformers Weijian Xu, Yifan Xu, Tyler Chang, Zhuowen Tu

CVPR 2021 Compatibility-Aware Heterogeneous Visual Search Rahul Duggal, Hao Zhou, Shuo Yang, Yuanjun Xiong, Wei Xia, Zhuowen Tu, Stefano Soatto

CVPR 2021 Dual Contradistinctive Generative Autoencoder Gaurav Parmar, Dacheng Li, Kwonjoon Lee, Zhuowen Tu

CVPR 2021 Exponential Moving Average Normalization for Self-Supervised and Semi-Supervised Learning Zhaowei Cai, Avinash Ravichandran, Subhransu Maji, Charless Fowlkes, Zhuowen Tu, Stefano Soatto

CVPR 2021 Line Segment Detection Using Transformers Without Edges Yifan Xu, Weijian Xu, David Cheung, Zhuowen Tu

NeurIPS 2021 Long Short-Term Transformer for Online Action Detection Mingze Xu, Yuanjun Xiong, Hao Chen, Xinyu Li, Wei Xia, Zhuowen Tu, Stefano Soatto

CVPR 2021 Pose Recognition with Cascade Transformers Ke Li, Shijie Wang, Xiang Zhang, Yifan Xu, Weijian Xu, Zhuowen Tu

ICCV 2021 Visual Relationship Detection Using Part-and-Sum Transformers with Composite Queries Qi Dong, Zhuowen Tu, Haofu Liao, Yuting Zhang, Vijay Mahadevan, Stefano Soatto

WACV 2020 Local Binary Pattern Networks Jeng-Hau Lin, Justin Lazarow, Andrew Yang, Dezhi Hong, Rajesh Gupta, Zhuowen Tu

ECCV 2020 One-Pixel Signature: Characterizing CNN Models for Backdoor Detection Shanjiaoyang Huang, Weiqi Peng, Zhiwei Jia, Zhuowen Tu

CVPRW 2020 Topology-Aware Single-Image 3D Shape Reconstruction Qimin Chen, Vincent Nguyen, Feng Han, Raimondas Kiveris, Zhuowen Tu

ICLR 2020 Unaligned Image-to-Sequence Transformation with Loop Consistency Siyang Wang, Justin Lazarow, Kwonjoon Lee, Zhuowen Tu

AAAI 2019 3D Volumetric Modeling with Introspective Neural Networks Wenlong Huang, Brian Lai, Weijian Xu, Zhuowen Tu

IJCAI 2018 Deep Convolutional Neural Networks with Merge-and-Run Mappings Liming Zhao, Mingjie Li, Depu Meng, Xi Li, Zhaoxiang Zhang, Yueting Zhuang, Zhuowen Tu, Jingdong Wang

ECCV 2018 Rethinking Spatiotemporal Feature Learning: Speed-Accuracy Trade-Offs in Video Classification Saining Xie, Chen Sun, Jonathan Huang, Zhuowen Tu, Kevin Murphy

CVPR 2017 Aggregated Residual Transformations for Deep Neural Networks Saining Xie, Ross Girshick, Piotr Dollar, Zhuowen Tu, Kaiming He

CVPRW 2017 Binarized Convolutional Neural Networks with Separable Filters for Efficient Hardware Acceleration Jeng-Hau Lin, Tianwei Xing, Ritchie Zhao, Zhiru Zhang, Mani B. Srivastava, Zhuowen Tu, Rajesh K. Gupta

CVPR 2017 Deeply Supervised Salient Object Detection with Short Connections Qibin Hou, Ming-Ming Cheng, Xiaowei Hu, Ali Borji, Zhuowen Tu, Philip H. S. Torr

NeurIPS 2017 Introspective Classification with Convolutional Nets Long Jin, Justin Lazarow, Zhuowen Tu

ICCV 2017 Introspective Neural Networks for Generative Modeling Justin Lazarow, Long Jin, Zhuowen Tu

AISTATS 2016 Generalizing Pooling Functions in Convolutional Neural Networks: Mixed, Gated, and Tree Chen-Yu Lee, Patrick W. Gallagher, Zhuowen Tu

ECCV 2016 HFS: Hierarchical Feature Selection for Efficient Image Segmentation Ming-Ming Cheng, Yun Liu, Qibin Hou, Jiawang Bian, Philip H. S. Torr, Shi-Min Hu, Zhuowen Tu

ECCV 2016 Top-Down Learning for Structured Labeling with Convolutional Pseudoprior Saining Xie, Xun Huang, Zhuowen Tu

AISTATS 2015 Deeply-Supervised Nets Chen-Yu Lee, Saining Xie, Patrick W. Gallagher, Zhengyou Zhang, Zhuowen Tu

ICCV 2015 Holistically-Nested Edge Detection Saining Xie, Zhuowen Tu

UAI 2014 Learning to Predict from Crowdsourced Data Wei Bi, Liwei Wang, James T. Kwok, Zhuowen Tu

CVPR 2014 MILCut: A Sweeping Line Multiple Instance Learning Paradigm for Interactive Image Segmentation Jiajun Wu, Yibiao Zhao, Jun-Yan Zhu, Siwei Luo, Zhuowen Tu

WACV 2014 Scale-Space SIFT Flow Weichao Qiu, Xinggang Wang, Xiang Bai, Alan L. Yuille, Zhuowen Tu

ICCV 2013 Action Recognition with Actons Jun Zhu, Baoyuan Wang, Xiaokang Yang, Wenjun Zhang, Zhuowen Tu

ICCV 2013 Dynamic Label Propagation for Semi-Supervised Multi-Class Multi-Label Classification Bo Wang, Zhuowen Tu, John K. Tsotsos

ICML 2013 Fixed-Point Model for Structured Labeling Quannan Li, Jingdong Wang, David Wipf, Zhuowen Tu

CVPR 2013 Harvesting Mid-Level Visual Concepts from Large-Scale Internet Images Quannan Li, Jiajun Wu, Zhuowen Tu

ICML 2013 Max-Margin Multiple-Instance Dictionary Learning Xinggang Wang, Baoyuan Wang, Xiang Bai, Wenyu Liu, Zhuowen Tu

CVPR 2013 Robust Estimation of Nonrigid Transformation for Point Set Registration Jiayi Ma, Ji Zhao, Jinwen Tian, Zhuowen Tu, Alan L. Yuille

CVPR 2013 Sparse Subspace Denoising for Image Manifolds Bo Wang, Zhuowen Tu

CVPR 2012 Affinity Learning via Self-Diffusion for Image Segmentation and Clustering Bo Wang, Zhuowen Tu

CVPR 2012 Detecting Texts of Arbitrary Orientations in Natural Images Cong Yao, Xiang Bai, Wenyu Liu, Yi Ma, Zhuowen Tu

AAAI 2012 Discriminative Clustering via Generative Feature Mapping Liwei Wang, Xiong Li, Zhuowen Tu, Jiaya Jia

CVPR 2012 Exemplar-Based Human Action Pose Correction and Tagging Wei Shen, Ke Deng, Xiang Bai, Tommer Leyvand, Baining Guo, Zhuowen Tu

CVPR 2012 Multiple Clustered Instance Learning for Histopathology Cancer Image Classification, Segmentation and Clustering Yan Xu, Jun-Yan Zhu, Eric I-Chao Chang, Zhuowen Tu

CVPRW 2012 Randomness and Sparsity Induced Codebook Learning with Application to Cancer Image Classification Quannan Li, Cong Yao, Liwei Wang, Zhuowen Tu

CVPR 2012 Scalable k-NN Graph Construction for Visual Descriptors Jing Wang, Jingdong Wang, Gang Zeng, Zhuowen Tu, Rui Gan, Shipeng Li

CVPR 2012 Unsupervised Metric Fusion by Cross Diffusion Bo Wang, Jiayan Jiang, Wei Wang, Zhi-Hua Zhou, Zhuowen Tu

CVPR 2012 Unsupervised Object Class Discovery via Saliency-Guided Multiple Class Learning Jun-Yan Zhu, Jiajun Wu, Yichen Wei, Eric I-Chao Chang, Zhuowen Tu

ICCV 2011 Learning a Mixture of Sparse Distance Metrics for Classification and Dimensionality Reduction Yi Hong, Quannan Li, Jiayan Jiang, Zhuowen Tu

ICCV 2011 Unsupervised Metric Learning by Self-Smoothing Operator Jiayan Jiang, Bo Wang, Zhuowen Tu

ECCV 2010 Co-Transduction for Shape Retrieval Xiang Bai, Bo Wang, Xinggang Wang, Wenyu Liu, Zhuowen Tu

ECCV 2010 Object Recognition Using Junctions Bo Wang, Xiang Bai, Xinggang Wang, Wenyu Liu, Zhuowen Tu

CVPRW 2010 Sparse Semi-Supervised Learning for Perceptual Grouping Yi Hong, Jiayan Jiang, Zhuowen Tu

ICCV 2009 Active Skeleton for Non-Rigid Object Detection Xiang Bai, Xinggang Wang, Longin Jan Latecki, Wenyu Liu, Zhuowen Tu

CVPR 2009 Efficient Scale Space Auto-Context for Image Segmentation and Labeling Jiayan Jiang, Zhuowen Tu

ICCVW 2009 Integrating Contour and Skeleton for Shape Classification Xiang Bai, Wenyu Liu, Zhuowen Tu

CVPR 2009 Shape Band: A Deformable Object Detection Approach Xiang Bai, Quannan Li, Longin Jan Latecki, Wenyu Liu, Zhuowen Tu

CVPR 2008 Auto-Context and Its Application to High-Level Vision Tasks Zhuowen Tu

CVPR 2008 Graph-Shifts: Natural Image Labeling by Dynamic Hierarchical Computing Jason J. Corso, Alan L. Yuille, Zhuowen Tu

ECCV 2008 Improving Shape Retrieval by Learning Graph Transduction Xingwei Yang, Xiang Bai, Longin Jan Latecki, Zhuowen Tu

CVPR 2008 Learning Based Coarse-to-Fine Image Registration Jiayan Jiang, Songfeng Zheng, Arthur W. Toga, Zhuowen Tu

ECCV 2008 Multiple Component Learning for Object Detection Piotr Dollár, Boris Babenko, Serge J. Belongie, Pietro Perona, Zhuowen Tu

CVPR 2007 Detecting Object Boundaries Using Low-, Mid-, and High-Level Information Songfeng Zheng, Zhuowen Tu, Alan L. Yuille

CVPR 2007 Feature Mining for Image Classification Piotr Dollár, Zhuowen Tu, Hai Tao, Serge J. Belongie

CVPR 2007 Learning Generative Models via Discriminative Approaches Zhuowen Tu

ECCV 2006 A Learning Based Approach for 3D Segmentation and Colon Detagging Zhuowen Tu, Xiang Sean Zhou, Dorin Comaniciu, Luca Bogoni

CVPR 2006 Probabilistic 3D Polyp Detection in CT Images: The Role of Sample Alignment Zhuowen Tu, Xiang Sean Zhou, Luca Bogoni, Adrian Barbu, Dorin Comaniciu

CVPR 2006 Supervised Learning of Edges and Object Boundaries Piotr Dollár, Zhuowen Tu, Serge J. Belongie

ICCV 2005 An Integrated Framework for Image Segmentation and Perceptual Grouping Zhuowen Tu

ICCV 2005 Probabilistic Boosting-Tree: Learning Discriminative Models for Classification, Recognition, and Clustering Zhuowen Tu

ECCV 2004 Shape Matching and Recognition - Using Generative Models and Informative Features Zhuowen Tu, Alan L. Yuille

ICCV 2003 Image Parsing: Unifying Segmentation, Detection, and Recognition Zhuowen Tu, Xiangrong Chen, Alan L. Yuille, Song Chun Zhu

ECCV 2002 A Stochastic Algorithm for 3D Scene Segmentation and Reconstruction Feng Han, Zhuowen Tu, Song Chun Zhu

ECCV 2002 Parsing Images into Region and Curve Processes Zhuowen Tu, Song Chun Zhu

ICCV 2001 Image Segmentation by Data Driven Markov Chain Monte Carlo Zhuowen Tu, Song Chun Zhu, Heung-Yeung Shum

CVPR 2000 Integrating Bottom-Up/Top-Down for Object Recognition by Data Driven Markov Chain Monte Carlo Song Chun Zhu, Rong Zhang, Zhuowen Tu