You, Haoxuan

20 publications

TMLR 2026 A Survey of Token Compression for Efficient Multimodal Large Language Models Kele Shao, Keda Tao, Kejia Zhang, Sicheng Feng, Mu Cai, Yuzhang Shang, Haoxuan You, Can Qin, Yang Sui, Huan Wang

ICLR 2026 MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer Yanghao Li, Rui Qian, Bowen Pan, Haotian Zhang, Haoshuo Huang, Bowen Zhang, Jialing Tong, Haoxuan You, Xianzhi Du, Zhe Gan, Hyunjik Kim, Chao Jia, Zhenbang Wang, Yinfei Yang, Mingfei Gao, Zi-Yi Dou, Wenze Hu, Chang Gao, Dongxu Li, Philipp Dufter, Zirui Wang, Guoli Yin, Zhengdong Zhang, Chen Chen, Yang Zhao, Ruoming Pang, Zhifeng Chen

CVPR 2025 DyCoke: Dynamic Compression of Tokens for Fast Video Large Language Models Keda Tao, Can Qin, Haoxuan You, Yang Sui, Huan Wang

NeurIPS 2025 HoliTom: Holistic Token Merging for Fast Video Large Language Models Kele Shao, Keda Tao, Can Qin, Haoxuan You, Yang Sui, Huan Wang

ICLR 2025 MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-Tuning Haotian Zhang, Mingfei Gao, Zhe Gan, Philipp Dufter, Nina Wenzel, Forrest Huang, Dhruti Shah, Xianzhi Du, Bowen Zhang, Yanghao Li, Sam Dodge, Keen You, Zhen Yang, Aleksei Timofeev, Mingze Xu, Hong-You Chen, Jean-Philippe Fauconnier, Zhengfeng Lai, Haoxuan You, Zirui Wang, Afshin Dehghan, Peter Grasch, Yinfei Yang

ICLR 2025 MMEgo: Towards Building Egocentric Multimodal LLMs for Video QA Hanrong Ye, Haotian Zhang, Erik Daxberger, Lin Chen, Zongyu Lin, Yanghao Li, Bowen Zhang, Haoxuan You, Dan Xu, Zhe Gan, Jiasen Lu, Yinfei Yang

ICLR 2024 CoBIT: A Contrastive Bi-Directional Image-Text Generation Model Haoxuan You, Mandy Guo, Zhecan Wang, Kai-Wei Chang, Jason Michael Baldridge, Jiahui Yu

ICLR 2024 Ferret: Refer and Ground Anything Anywhere at Any Granularity Haoxuan You, Haotian Zhang, Zhe Gan, Xianzhi Du, Bowen Zhang, Zirui Wang, Liangliang Cao, Shih-Fu Chang, Yinfei Yang

NeurIPS 2024 JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images Zhecan Wang, Junzhang Liu, Chia-Wei Tang, Hani Alomari, Anushka Sivakumar, Rui Sun, Wenhao Li, Md. Atabuzzaman, Hammad Ayyubi, Haoxuan You, Alvi Ishmam, Kai-Wei Chang, Shih-Fu Chang, Chris Thomas

ECCV 2022 Learning Visual Representation from Modality-Shared Contrastive Language-Image Pre-Training Haoxuan You, Luowei Zhou, Bin Xiao, Noel Codella, Yu Cheng, Ruochen Xu, Shih-Fu Chang, Lu Yuan

ICLR 2022 Rethinking Network Design and Local Geometry in Point Cloud: A Simple Residual MLP Framework Xu Ma, Can Qin, Haoxuan You, Haoxi Ran, Yun Fu

AAAI 2022 SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense Reasoning Zhecan Wang, Haoxuan You, Liunian Harold Li, Alireza Zareian, Suji Park, Yiqing Liang, Kai-Wei Chang, Shih-Fu Chang

ECCV 2020 Learning Visual Commonsense for Robust Scene Graph Generation Alireza Zareian, Zhecan Wang, Haoxuan You, Shih-Fu Chang

IJCAI 2019 Decoding EEG by Visual-Guided Deep Neural Networks Zhicheng Jiao, Haoxuan You, Fan Yang, Xin Li, Han Zhang, Dinggang Shen

CVPR 2019 Dynamic Fusion with Intra- and Inter-Modality Attention Flow for Visual Question Answering Peng Gao, Zhengkai Jiang, Haoxuan You, Pan Lu, Steven C. H. Hoi, Xiaogang Wang, Hongsheng Li

AAAI 2019 Hypergraph Neural Networks Yifan Feng, Haoxuan You, Zizhao Zhang, Rongrong Ji, Yue Gao

AAAI 2019 MeshNet: Mesh Neural Network for 3D Shape Representation Yutong Feng, Yifan Feng, Haoxuan You, Xibin Zhao, Yue Gao

ICCV 2019 Multi-Modality Latent Interaction Network for Visual Question Answering Peng Gao, Haoxuan You, Zhanpeng Zhang, Xiaogang Wang, Hongsheng Li

AAAI 2019 PVRNet: Point-View Relation Neural Network for 3D Shape Recognition Haoxuan You, Yifan Feng, Xibin Zhao, Changqing Zou, Rongrong Ji, Yue Gao

NeurIPS 2019 PointDAN: A Multi-Scale 3D Domain Adaption Network for Point Cloud Representation Can Qin, Haoxuan You, Lichen Wang, C.-C. Jay Kuo, Yun Fu