Hu, Wenze

18 publications

ICLR 2026 MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer Yanghao Li, Rui Qian, Bowen Pan, Haotian Zhang, Haoshuo Huang, Bowen Zhang, Jialing Tong, Haoxuan You, Xianzhi Du, Zhe Gan, Hyunjik Kim, Chao Jia, Zhenbang Wang, Yinfei Yang, Mingfei Gao, Zi-Yi Dou, Wenze Hu, Chang Gao, Dongxu Li, Philipp Dufter, Zirui Wang, Guoli Yin, Zhengdong Zhang, Chen Chen, Yang Zhao, Ruoming Pang, Zhifeng Chen

ICLR 2025 Revisit Large-Scale Image-Caption Data in Pre-Training Multimodal Foundation Models Zhengfeng Lai, Vasileios Saveris, Chen Chen, Hong-You Chen, Haotian Zhang, Bowen Zhang, Wenze Hu, Juan Lao Tebar, Zhe Gan, Peter Grasch, Meng Cao, Yinfei Yang

ICCV 2025 STIV: Scalable Text and Image Conditioned Video Generation Zongyu Lin, Wei Liu, Chen Chen, Jiasen Lu, Wenze Hu, Tsu-Jui Fu, Jesse Allardice, Zhengfeng Lai, Liangchen Song, Bowen Zhang, Cha Chen, Yiran Fei, Lezhi Li, Yinfei Yang, Yizhou Sun, Kai-Wei Chang

ICLRW 2025 Stiv: Scalable Text and Image Conditioned Video Generation Zongyu Lin, Wei Liu, Chen Chen, Jiasen Lu, Wenze Hu, Tsu-Jui Fu, Jesse Allardice, Zhengfeng Lai, Liangchen Song, Bowen Zhang, Cha Chen, Yiran Fei, Yifan Jiang, Lezhi Li, Yizhou Sun, Kai-Wei Chang, Yinfei Yang

ICCV 2025 UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing Tsu-Jui Fu, Yusu Qian, Chen Chen, Wenze Hu, Zhe Gan, Yinfei Yang

ICLR 2024 Guiding Instruction-Based Image Editing via Multimodal Large Language Models Tsu-Jui Fu, Wenze Hu, Xianzhi Du, William Yang Wang, Yinfei Yang, Zhe Gan

ICCV 2023 Fcaformer: Forward Cross Attention in Hybrid Vision Transformer Haokui Zhang, Wenze Hu, Xiaoyu Wang

CVPR 2023 NAR-Former: Neural Architecture Representation Learning Towards Holistic Attributes Prediction Yun Yi, Haokui Zhang, Wenze Hu, Nannan Wang, Xiaoyu Wang

ICCV 2023 ParCNetV2: Oversized Kernel with Enhanced Attention Ruihan Xu, Haokui Zhang, Wenze Hu, Shiliang Zhang, Xiaoyu Wang

ECCV 2022 Connecting Compression Spaces with Transformer for Approximate Nearest Neighbor Search Haokui Zhang, Buzhou Tang, Wenze Hu, Xiaoyu Wang

ECCV 2022 ParC-Net: Position Aware Circular Convolution with Merits from ConvNets and Transformer Haokui Zhang, Wenze Hu, Xiaoyu Wang

CVPR 2014 Learning Inhomogeneous FRAME Models for Object Patterns Jianwen Xie, Wenze Hu, Song-Chun Zhu, Ying Nian Wu

CVPR 2014 Unsupervised Learning of Dictionaries of Hierarchical Compositional Models Jifeng Dai, Yi Hong, Wenze Hu, Song-Chun Zhu, Ying Nian Wu

ICCV 2013 Modeling Occlusion by Discriminative AND-OR Structures Bo Li, Wenze Hu, Tianfu Wu, Song-Chun Zhu

CVPR 2012 Learning 3D Object Templates by Hierarchical Quantization of Geometry and Appearance Spaces Wenze Hu

ICCV 2011 Image Representation by Active Curves Wenze Hu, Ying Nian Wu, Song-Chun Zhu

CVPR 2010 Learning a Probabilistic Model Mixing 3D and 2D Primitives for View Invariant Object Recognition Wenze Hu, Song Chun Zhu

CVPR 2008 An Integrated Background Model for Video Surveillance Based on Primal Sketch and 3D Scene Geometry Wenze Hu, Haifeng Gong, Song Chun Zhu, Yongtian Wang