Hu, Hexiang

24 publications

TMLR 2026 KITTEN: A Knowledge-Integrated Evaluation of Image Generation on Visual Entities Hsin-Ping Huang, Xinyi Wang, Yonatan Bitton, Hagai Taitelbaum, Gaurav Singh Tomar, Ming-Wei Chang, Xuhui Jia, Kelvin C.K. Chan, Hexiang Hu, Yu-Chuan Su, Ming-Hsuan Yang

ICLR 2025 MEGA-Bench: Scaling Multimodal Evaluation to over 500 Real-World Tasks Jiacheng Chen, Tianhao Liang, Sherman Siu, Zhengqing Wang, Kai Wang, Yubo Wang, Yuansheng Ni, Ziyan Jiang, Wang Zhu, Bohan Lyu, Dongfu Jiang, Xuan He, Yuan Liu, Hexiang Hu, Xiang Yue, Wenhu Chen

ICLR 2025 OmnixR: Evaluating Omni-Modality Language Models on Reasoning Across Modalities Lichang Chen, Hexiang Hu, Mingda Zhang, Yiwen Chen, Zifeng Wang, Yandong Li, Pranav Shyam, Tianyi Zhou, Heng Huang, Ming-Hsuan Yang, Boqing Gong

CVPR 2025 Scaling Inference Time Compute for Diffusion Models Nanye Ma, Shangyuan Tong, Haolin Jia, Hexiang Hu, Yu-Chuan Su, Mingda Zhang, Xuan Yang, Yandong Li, Tommi Jaakkola, Xuhui Jia, Saining Xie

CVPR 2024 Instruct-Imagen: Image Generation with Multi-Modal Instruction Hexiang Hu, Kelvin C.K. Chan, Yu-Chuan Su, Wenhu Chen, Yandong Li, Kihyuk Sohn, Yang Zhao, Xue Ben, Boqing Gong, William Cohen, Ming-Wei Chang, Xuhui Jia

ICML 2024 MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions Kai Zhang, Yi Luan, Hexiang Hu, Kenton Lee, Siyuan Qiao, Wenhu Chen, Yu Su, Ming-Wei Chang

CVPR 2024 On Scaling up a Multilingual Vision and Language Model Xi Chen, Josip Djolonga, Piotr Padlewski, Basil Mustafa, Soravit Changpinyo, Jialin Wu, Carlos Riquelme Ruiz, Sebastian Goodman, Xiao Wang, Yi Tay, Siamak Shakeri, Mostafa Dehghani, Daniel Salz, Mario Lucic, Michael Tschannen, Arsha Nagrani, Hexiang Hu, Mandar Joshi, Bo Pang, Ceslee Montgomery, Paulina Pietrzyk, Marvin Ritter, Aj Piergiovanni, Matthias Minderer, Filip Pavetic, Austin Waters, Gang Li, Ibrahim Alabdulmohsin, Lucas Beyer, Julien Amelot, Kenton Lee, Andreas Peter Steiner, Yang Li, Daniel Keysers, Anurag Arnab, Yuanzhong Xu, Keran Rong, Alexander Kolesnikov, Mojtaba Seyedhosseini, Anelia Angelova, Xiaohua Zhai, Neil Houlsby, Radu Soricut

ECCV 2024 UniIR: Training and Benchmarking Universal Multimodal Information Retrievers Cong Wei, Yang Chen, Haonan Chen, Hexiang Hu, Ge Zhang, Jie Fu, Alan Ritter, Wenhu Chen

NeurIPS 2023 From Pixels to UI Actions: Learning to Follow Instructions via Graphical User Interfaces Peter Shaw, Mandar Joshi, James Cohan, Jonathan Berant, Panupong Pasupat, Hexiang Hu, Urvashi Khandelwal, Kenton Lee, Kristina N Toutanova

ICCV 2023 Open-Domain Visual Entity Recognition: Towards Recognizing Millions of Wikipedia Entities Hexiang Hu, Yi Luan, Yang Chen, Urvashi Khandelwal, Mandar Joshi, Kenton Lee, Kristina Toutanova, Ming-Wei Chang

ICML 2023 Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding Kenton Lee, Mandar Joshi, Iulia Raluca Turc, Hexiang Hu, Fangyu Liu, Julian Martin Eisenschlos, Urvashi Khandelwal, Peter Shaw, Ming-Wei Chang, Kristina Toutanova

ICCV 2023 PreSTU: Pre-Training for Scene-Text Understanding Jihyung Kil, Soravit Changpinyo, Xi Chen, Hexiang Hu, Sebastian Goodman, Wei-Lun Chao, Radu Soricut

ICLR 2023 Re-Imagen: Retrieval-Augmented Text-to-Image Generator Wenhu Chen, Hexiang Hu, Chitwan Saharia, William W. Cohen

NeurIPS 2023 Subject-Driven Text-to-Image Generation via Apprenticeship Learning Wenhu Chen, Hexiang Hu, Yandong Li, Nataniel Ruiz, Xuhui Jia, Ming-Wei Chang, William W. Cohen

CVPR 2021 Learning the Best Pooling Strategy for Visual Semantic Embedding Jiacheng Chen, Hexiang Hu, Hao Wu, Yuning Jiang, Changhu Wang

ICCV 2021 MosaicOS: A Simple and Effective Use of Object-Centric Images for Long-Tailed Object Detection Cheng Zhang, Tai-Yu Pan, Yandong Li, Hexiang Hu, Dong Xuan, Soravit Changpinyo, Boqing Gong, Wei-Lun Chao

NeurIPS 2021 On Model Calibration for Long-Tailed Object Detection and Instance Segmentation Tai-Yu Pan, Cheng Zhang, Yandong Li, Hexiang Hu, Dong Xuan, Soravit Changpinyo, Boqing Gong, Wei-Lun Chao

ICCVW 2019 Evaluating Text-to-Image Matching Using Binary Image Selection (BISON) Hexiang Hu, Ishan Misra, Laurens van der Maaten

NeurIPS 2019 Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation Risto Vuorio, Shao-Hua Sun, Hexiang Hu, Joseph J. Lim

ECCV 2018 Cross-Modal and Hierarchical Modeling of Video and Text Bowen Zhang, Hexiang Hu, Fei Sha

NeurIPS 2018 Synthesized Policies for Transfer and Adaptation Across Tasks and Environments Hexiang Hu, Liyu Chen, Boqing Gong, Fei Sha

CVPR 2017 FastMask: Segment Multi-Scale Object Candidates in One Shot Hexiang Hu, Shiyi Lan, Yuning Jiang, Zhimin Cao, Fei Sha

CVPR 2016 Learning Structured Inference Neural Networks with Label Relations Hexiang Hu, Guang-Tong Zhou, Zhiwei Deng, Zicheng Liao, Greg Mori

CVPR 2016 Structure Inference Machines: Recurrent Neural Networks for Analyzing Relations in Group Activity Recognition Zhiwei Deng, Arash Vahdat, Hexiang Hu, Greg Mori