Tan, Hao

43 publications

NeurIPS 2025 4D-LRM: Large Space-Time Reconstruction Model from and to Any View at Any Time Ziqiao Ma, Xuweiyi Chen, Shoubin Yu, Sai Bi, Kai Zhang, Chen Ziwen, Sihan Xu, Jianing Yang, Zexiang Xu, Kalyan Sunkavalli, Mohit Bansal, Joyce Chai, Hao Tan

AAAI 2025 Adaptive Few-Shot Prompting for Machine Translation with Pre-Trained Language Models Lei Tang, Jinghui Qin, Wenxuan Ye, Hao Tan, Zhijing Yang

CVPR 2025 Buffer Anytime: Zero-Shot Video Depth and Normal from Image Priors Zhengfei Kuang, Tianyuan Zhang, Kai Zhang, Hao Tan, Sai Bi, Yiwei Hu, Zexiang Xu, Milos Hasan, Gordon Wetzstein, Fujun Luan

ICCV 2025 DiffTell: A High-Quality Dataset for Describing Image Manipulation Changes Zonglin Di, Jing Shi, Yifei Fan, Hao Tan, Alexander Black, John Collomosse, Yang Liu

ICML 2025 Efficient Federated Incomplete Multi-View Clustering Suyuan Liu, Hao Yu, Hao Tan, Ke Liang, Siwei Wang, Shengju Yu, En Zhu, Xinwang Liu

ICML 2025 Gaussian Mixture Flow Matching Models Hansheng Chen, Kai Zhang, Hao Tan, Zexiang Xu, Fujun Luan, Leonidas Guibas, Gordon Wetzstein, Sai Bi

CVPR 2025 Generating 3D-Consistent Videos from Unposed Internet Photos Gene Chou, Kai Zhang, Sai Bi, Hao Tan, Zexiang Xu, Fujun Luan, Bharath Hariharan, Noah Snavely

ICLR 2025 LVSM: A Large View Synthesis Model with Minimal 3D Inductive Bias Haian Jin, Hanwen Jiang, Hao Tan, Kai Zhang, Sai Bi, Tianyuan Zhang, Fujun Luan, Noah Snavely, Zexiang Xu

CVPR 2025 Large-Scale Multi-View Tensor Clustering with Implicit Linear Kernels Jiyuan Liu, Xinwang Liu, Chuankun Li, Xinhang Wan, Hao Tan, Yi Zhang, Weixuan Liang, Qian Qu, Yu Feng, Renxiang Guan, Ke Liang

AAAI 2025 LazyDiT: Lazy Learning for the Acceleration of Diffusion Transformers Xuan Shen, Zhao Song, Yufa Zhou, Bo Chen, Yanyu Li, Yifan Gong, Kai Zhang, Hao Tan, Jason Kuen, Henghui Ding, Zhihao Shu, Wei Niu, Pu Zhao, Yanzhi Wang, Jiuxiang Gu

ICCV 2025 Long-LRM: Long-Sequence Large Reconstruction Model for Wide-Coverage Gaussian Splats Chen Ziwen, Hao Tan, Kai Zhang, Sai Bi, Fujun Luan, Yicong Hong, Li Fuxin, Zexiang Xu

CVPR 2025 MegaSynth: Scaling up 3D Scene Reconstruction with Synthesized Data Hanwen Jiang, Zexiang Xu, Desai Xie, Ziwen Chen, Haian Jin, Fujun Luan, Zhixin Shu, Kai Zhang, Sai Bi, Xin Sun, Jiuxiang Gu, Qixing Huang, Georgios Pavlakos, Hao Tan

AAAI 2025 Numerical Pruning for Efficient Autoregressive Models Xuan Shen, Zhao Song, Yufa Zhou, Bo Chen, Jing Liu, Ruiyi Zhang, Ryan A. Rossi, Hao Tan, Tong Yu, Xiang Chen, Yufan Zhou, Tong Sun, Pu Zhao, Yanzhi Wang, Jiuxiang Gu

TMLR 2025 Pre-Trained Vision-Language Models Learn Discoverable Visual Concepts Yuan Zang, Tian Yun, Hao Tan, Trung Bui, Chen Sun

CVPRW 2025 Progressive Autoregressive Video Diffusion Models Desai Xie, Zhan Xu, Yicong Hong, Hao Tan, Difan Liu, Feng Liu, Arie E. Kaufman, Yang Zhou

CVPR 2025 RandAR: Decoder-Only Autoregressive Visual Generation in Random Orders Ziqi Pang, Tianyuan Zhang, Fujun Luan, Yunze Man, Hao Tan, Kai Zhang, William T. Freeman, Yu-Xiong Wang

ICCV 2025 RayZer: A Self-Supervised Large View Synthesis Model Hanwen Jiang, Hao Tan, Peng Wang, Haian Jin, Yue Zhao, Sai Bi, Kai Zhang, Fujun Luan, Kalyan Sunkavalli, Qixing Huang, Georgios Pavlakos

CVPR 2025 Recover and Match: Open-Vocabulary Multi-Label Recognition Through Knowledge-Constrained Optimal Transport Hao Tan, Zichang Tan, Jun Li, Ajian Liu, Jun Wan, Zhen Lei

ICLR 2025 RelitLRM: Generative Relightable Radiance for Large Reconstruction Models Tianyuan Zhang, Zhengfei Kuang, Haian Jin, Zexiang Xu, Sai Bi, Hao Tan, He Zhang, Yiwei Hu, Milos Hasan, William T. Freeman, Kai Zhang, Fujun Luan

CVPR 2025 Turbo3D: Ultra-Fast Text-to-3D Generation Hanzhe Hu, Tianwei Yin, Fujun Luan, Yiwei Hu, Hao Tan, Zexiang Xu, Sai Bi, Shubham Tulsiani, Kai Zhang

ICCV 2025 VEGGIE: Instructional Editing and Reasoning Video Concepts with Grounded Generation Shoubin Yu, Difan Liu, Ziqiao Ma, Yicong Hong, Yang Zhou, Hao Tan, Joyce Chai, Mohit Bansal

CVPR 2024 Building Vision-Language Models on Solid Foundations with Masked Distillation Sepehr Sameni, Kushal Kafle, Hao Tan, Simon Jenni

CVPR 2024 Carve3D: Improving Multi-View Reconstruction Consistency for Diffusion Models with RL Finetuning Desai Xie, Jiahao Li, Hao Tan, Xin Sun, Zhixin Shu, Yi Zhou, Sai Bi, Sören Pirk, Arie E. Kaufman

AAAI 2024 Compound Text-Guided Prompt Tuning via Image-Adaptive Cues Hao Tan, Jun Li, Yizhuang Zhou, Jun Wan, Zhen Lei, Xiangyu Zhang

ICLR 2024 DMV3D: Denoising Multi-View Diffusion Using 3D Large Reconstruction Model Yinghao Xu, Hao Tan, Fujun Luan, Sai Bi, Peng Wang, Jiahao Li, Zifan Shi, Kalyan Sunkavalli, Gordon Wetzstein, Zexiang Xu, Kai Zhang

ECCV 2024 GS-LRM: Large Reconstruction Model for 3D Gaussian Splatting Kai Zhang, Sai Bi, Hao Tan, Yuanbo Xiangli, Nanxuan Zhao, Kalyan Sunkavalli, Zexiang Xu

ICLR 2024 Instant3D: Fast Text-to-3D with Sparse-View Generation and Large Reconstruction Model Jiahao Li, Hao Tan, Kai Zhang, Zexiang Xu, Fujun Luan, Yinghao Xu, Yicong Hong, Kalyan Sunkavalli, Greg Shakhnarovich, Sai Bi

NeurIPS 2024 LRM-Zero: Training Large Reconstruction Models with Synthesized Data Desai Xie, Sai Bi, Zhixin Shu, Kai Zhang, Zexiang Xu, Yi Zhou, Sören Pirk, Arie Kaufman, Xin Sun, Hao Tan

ICLR 2024 LRM: Large Reconstruction Model for Single Image to 3D Yicong Hong, Kai Zhang, Jiuxiang Gu, Sai Bi, Yang Zhou, Difan Liu, Feng Liu, Kalyan Sunkavalli, Trung Bui, Hao Tan

ICLR 2024 PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape Prediction Peng Wang, Hao Tan, Sai Bi, Yinghao Xu, Fujun Luan, Kalyan Sunkavalli, Wenping Wang, Zexiang Xu, Kai Zhang

ICLR 2024 SOHES: Self-Supervised Open-World Hierarchical Entity Segmentation Shengcao Cao, Jiuxiang Gu, Jason Kuen, Hao Tan, Ruiyi Zhang, Handong Zhao, Ani Nenkova, Liangyan Gui, Tong Sun, Yu-Xiong Wang

IJCAI 2023 Graph Propagation Transformer for Graph Representation Learning Zhe Chen, Hao Tan, Tao Wang, Tianrun Shen, Tong Lu, Qiuying Peng, Cheng Cheng, Yue Qi

ICCV 2023 Learning Navigational Visual Representations with Semantic mAP Supervision Yicong Hong, Yang Zhou, Ruiyi Zhang, Franck Dernoncourt, Trung Bui, Stephen Gould, Hao Tan

ICCV 2023 Scaling Data Generation in Vision-and-Language Navigation Zun Wang, Jialu Li, Yicong Hong, Yi Wang, Qi Wu, Mohit Bansal, Stephen Gould, Hao Tan, Yu Qiao

CVPR 2022 EnvEdit: Environment Editing for Vision-and-Language Navigation Jialu Li, Hao Tan, Mohit Bansal

ICLR 2022 How Much Can CLIP Benefit Vision-and-Language Tasks? Sheng Shen, Liunian Harold Li, Hao Tan, Mohit Bansal, Anna Rohrbach, Kai-Wei Chang, Zhewei Yao, Kurt Keutzer

AAAI 2022 Scientific Chart Summarization: Datasets and Improved Text Modeling Hao Tan, Chen-Tse Tsai, Yujie He, Mohit Bansal

ICML 2021 Unifying Vision-and-Language Tasks via Text Generation Jaemin Cho, Jie Lei, Hao Tan, Mohit Bansal

NeurIPS 2021 VidLanKD: Improving Language Understanding via Video-Distilled Knowledge Transfer Zineng Tang, Jaemin Cho, Hao Tan, Mohit Bansal

IJCAI 2020 Diagnosing the Environment Bias in Vision-and-Language Navigation Yubo Zhang, Hao Tan, Mohit Bansal

AAAI 2020 Modality-Balanced Models for Visual Dialogue Hyounghun Kim, Hao Tan, Mohit Bansal

AAAI 2018 Source-Target Inference Models for Spatial Instruction Understanding Hao Tan, Mohit Bansal

CVPR 2017 A Joint Speaker-Listener-Reinforcer Model for Referring Expressions Licheng Yu, Hao Tan, Mohit Bansal, Tamara L. Berg