Wang, Xiaohan

39 publications

CVPR 2025 Apollo: An Exploration of Video Understanding in Large Multimodal Models Orr Zohar, Xiaohan Wang, Yann Dubois, Nikhil Mehta, Tong Xiao, Philippe Hansen-Estruch, Licheng Yu, Xiaofang Wang, Felix Juefei-Xu, Ning Zhang, Serena Yeung-Levy, Xide Xia

CVPR 2025 Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation Yuhui Zhang, Yuchang Su, Yiming Liu, Xiaohan Wang, James Burgess, Elaine Sui, Chenyu Wang, Josiah Aklilu, Alejandro Lozano, Anjiang Wei, Ludwig Schmidt, Serena Yeung-Levy

CVPR 2025 BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature Alejandro Lozano, Min Woo Sun, James Burgess, Liangyu Chen, Jeffrey J. Nirschl, Jeffrey Gu, Ivan Lopez, Josiah Aklilu, Anita Rau, Austin Wolfgang Katzer, Yuhui Zhang, Collin Chiu, Xiaohan Wang, Alfred Seunghoon Song, Robert Tibshirani, Serena Yeung-Levy

ICCV 2025 Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration Mark Endo, Xiaohan Wang, Serena Yeung-Levy

ICLR 2025 Innovative Thinking, Infinite Humor: Humor Research of Large Language Models Through Structured Thought Leaps Han Wang, Yilin Zhao, Dian Li, Xiaohan Wang, Sinbadliu, Xuguang Lan, Hui Wang

WACV 2025 Just Shift It: Test-Time Prototype Shifting for Zero-Shot Generalization with Vision-Language Models Elaine Sui, Xiaohan Wang, Serena Yeung-Levy

UAI 2025 Targeted Learning for Variable Importance Xiaohan Wang, Yunzhe Zhou, Giles Hooker

ICLR 2025 Video Action Differencing James Burgess, Xiaohan Wang, Yuhui Zhang, Anita Rau, Alejandro Lozano, Lisa Dunlap, Trevor Darrell, Serena Yeung-Levy

ICLR 2025 Video-STaR: Self-Training Enables Video Instruction Tuning with Any Supervision Orr Zohar, Xiaohan Wang, Yonatan Bitton, Idan Szpektor, Serena Yeung-Levy

CVPR 2024 A Category Agnostic Model for Visual Rearrangment Yuyi Liu, Xinhang Song, Weijie Li, Xiaohan Wang, Shuqiang Jiang

CVPR 2024 An Interactive Navigation Method with Effect-Oriented Affordance Xiaohan Wang, Yuehu Liu, Xinhang Song, Yuyi Liu, Sixian Zhang, Shuqiang Jiang

IJCAI 2024 Continual Multimodal Knowledge Graph Construction Xiang Chen, Jingtian Zhang, Xiaohan Wang, Ningyu Zhang, Tongtong Wu, Yuxiang Wang, Yongheng Wang, Huajun Chen

AAAI 2024 Cross-Sentence Gloss Consistency for Continuous Sign Language Recognition Qi Rao, Ke Sun, Xiaohan Wang, Qi Wang, Bang Zhang

AAAI 2024 DGL: Dynamic Global-Local Prompt Tuning for Text-Video Retrieval Xiangpeng Yang, Linchao Zhu, Xiaohan Wang, Yi Yang

CVPR 2024 Describing Differences in Image Sets with Natural Language Lisa Dunlap, Yuhui Zhang, Xiaohan Wang, Ruiqi Zhong, Trevor Darrell, Jacob Steinhardt, Joseph E. Gonzalez, Serena Yeung-Levy

CVPR 2024 Imagine Before Go: Self-Supervised Generative mAP for Object Goal Navigation Sixian Zhang, Xinyao Yu, Xinhang Song, Xiaohan Wang, Shuqiang Jiang

AAAI 2024 Interpretable3D: An Ad-Hoc Interpretable Classifier for 3D Point Clouds Tuo Feng, Ruijie Quan, Xiaohan Wang, Wenguan Wang, Yi Yang

ICLR 2024 Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in Vision-Language Models Shuai Zhao, Xiaohan Wang, Linchao Zhu, Yi Yang

ECCV 2024 VideoAgent: Long-Form Video Understanding with Large Language Model as Agent Xiaohan Wang, Yuhui Zhang, Orr Zohar, Serena Yeung-Levy

NeurIPS 2024 Why Are Visually-Grounded Language Models Bad at Image Classification? Yuhui Zhang, Alyssa Unell, Xiaohan Wang, Dhruba Ghosh, Yuchang Su, Ludwig Schmidt, Serena Yeung-Levy

ICCV 2023 Action Sensitivity Learning for Temporal Action Localization Jiayi Shao, Xiaohan Wang, Ruijie Quan, Junjun Zheng, Jiang Yang, Yi Yang

CVPR 2023 Adversarially Masking Synthetic to Mimic Real: Adaptive Noise Injection for Point Cloud Segmentation Adaptation Guangrui Li, Guoliang Kang, Xiaohan Wang, Yunchao Wei, Yi Yang

CVPR 2023 Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-Trained Vision-Language Models Wenhao Wu, Xiaohan Wang, Haipeng Luo, Jingdong Wang, Yi Yang, Wanli Ouyang

ICCV 2023 Bird's-Eye-View Scene Graph for Vision-Language Navigation Rui Liu, Xiaohan Wang, Wenguan Wang, Yi Yang

NeurIPS 2023 CaMP: Causal Multi-Policy Planning for Interactive Navigation in Multi-Room Scenes Xiaohan Wang, Yuehu Liu, Xinhang Song, Beibei Wang, Shuqiang Jiang

ICCV 2023 Clustering Based Point Cloud Representation Learning for 3D Analysis Tuo Feng, Wenguan Wang, Xiaohan Wang, Yi Yang, Qinghua Zheng

CVPR 2023 Global-to-Local Modeling for Video-Based 3D Human Pose and Shape Estimation Xiaolong Shen, Zongxin Yang, Xiaohan Wang, Jianxin Ma, Chang Zhou, Yi Yang

ICCV 2023 JOTR: 3D Joint Contrastive Learning with Transformers for Occluded Human Mesh Recovery Jiahao Li, Zongxin Yang, Xiaohan Wang, Jianxin Ma, Chang Zhou, Yi Yang

CVPR 2023 LANA: A Language-Capable Navigator for Instruction Following and Generation Xiaohan Wang, Wenguan Wang, Jiayi Shao, Yi Yang

ICCV 2023 MAAL: Multimodality-Aware Autoencoder-Based Affordance Learning for 3D Articulated Objects Yuanzhi Liang, Xiaohan Wang, Linchao Zhu, Yi Yang

IJCAI 2023 Open Anomalous Trajectory Recognition via Probabilistic Metric Learning Qiang Gao, Xiaohan Wang, Chaoran Liu, Goce Trajcevski, Li Huang, Fan Zhou

CVPR 2022 A Simple Episodic Linear Probe Improves Visual Recognition in the Wild Yuanzhi Liang, Linchao Zhu, Xiaohan Wang, Yi Yang

CVPR 2022 Large-Scale Video Panoptic Segmentation in the Wild: A Benchmark Jiaxu Miao, Xiaohan Wang, Yu Wu, Wei Li, Xu Zhang, Yunchao Wei, Yi Yang

CVPRW 2021 Connecting Language and Vision for Natural Language-Based Vehicle Retrieval Shuai Bai, Zhedong Zheng, Xiaohan Wang, Junyang Lin, Zhu Zhang, Chang Zhou, Hongxia Yang, Yi Yang

ICCV 2021 Interactive Prototype Learning for Egocentric Action Recognition Xiaohan Wang, Linchao Zhu, Heng Wang, Yi Yang

ICCV 2021 PR-RRN: Pairwise-Regularized Residual-Recursive Networks for Non-Rigid Structure-from-Motion Haitian Zeng, Yuchao Dai, Xin Yu, Xiaohan Wang, Yi Yang

CVPR 2021 T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval Xiaohan Wang, Linchao Zhu, Yi Yang

AAAI 2020 Symbiotic Attention with Privileged Information for Egocentric Action Recognition Xiaohan Wang, Yu Wu, Linchao Zhu, Yi Yang

ICCVW 2017 An Object Is Worth Six Thousand Pictures: The Egocentric, Manual, Multi-Image (EMMI) Dataset Xiaohan Wang, Fernanda Monteiro Eliott, James Ainooson, Joshua H. Palmer, Maithilee Kunda