Fei, Hao

51 publications

ICML 2025 $\mathcal{Vista}\mathcal{DPO}$: Video Hierarchical Spatial-Temporal Direct Preference Optimization for Large Video Models Haojian Huang, Haodong Chen, Shengqiong Wu, Meng Luo, Jinlan Fu, Xinya Du, Hanwang Zhang, Hao Fei

ICLR 2025 CHiP: Cross-Modal Hierarchical Direct Preference Optimization for Multimodal LLMs Jinlan Fu, Huangfushenzhen, Hao Fei, Xiaoyu Shen, Bryan Hooi, Xipeng Qiu, See-Kiong Ng

AAAI 2025 CoMT: A Novel Benchmark for Chain of Multi-Modal Thought on Large Vision-Language Models Zihui Cheng, Qiguang Chen, Jin Zhang, Hao Fei, Xiaocheng Feng, Wanxiang Che, Min Li, Libo Qin

AAAI 2025 Combating Multimodal LLM Hallucination via Bottom-up Holistic Reasoning Shengqiong Wu, Hao Fei, Liangming Pan, William Yang Wang, Shuicheng Yan, Tat-Seng Chua

ICCV 2025 Derm1M: A Million-Scale Vision-Language Dataset Aligned with Clinical Ontology Knowledge for Dermatology Siyuan Yan, Ming Hu, Yiwen Jiang, Xieji Li, Hao Fei, Philipp Tschandl, Harald Kittler, Zongyuan Ge

AAAI 2025 Divide-Solve-Combine: An Interpretable and Accurate Prompting Framework for Zero-Shot Multi-Intent Detection Libo Qin, Qiguang Chen, Jingxuan Zhou, Jin Wang, Hao Fei, Wanxiang Che, Min Li

IJCAI 2025 Improving Consistency Identification in Task-Oriented Dialogue Through Multi-Agent Collaboration Peng Wang, Shuo Li, Ruoxi Zhou, Qiguang Chen, Xiao Xu, Hao Fei, Dagang Li, Wanxiang Che, Libo Qin

ICCV 2025 Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining Zhiqi Ge, Juncheng Li, Xinglei Pang, Minghe Gao, Kaihang Pan, Wang Lin, Hao Fei, Wenqiao Zhang, Siliang Tang, Yueting Zhuang

NeurIPS 2025 JavisGPT: A Unified Multi-Modal LLM for Sounding-Video Comprehension and Generation Kai Liu, Jungang Li, Yuchong Sun, Shengqiong Wu, Jianzhang Gao, Daoan Zhang, Wei Zhang, Sheng Jin, Sicheng Yu, Geng Zhan, Jiayi Ji, Fan Zhou, Liang Zheng, Shuicheng Yan, Hao Fei, Tat-Seng Chua

CVPR 2025 Learning 4D Panoptic Scene Graph Generation from Rich 2D Visual Scene Shengqiong Wu, Hao Fei, Jingkang Yang, Xiangtai Li, Juncheng Li, Hanwang Zhang, Tat-seng Chua

NeurIPS 2025 MuSLR: Multimodal Symbolic Logical Reasoning Jundong Xu, Hao Fei, Yuhui Zhang, Liangming Pan, Qijun Huang, Qian Liu, Preslav Nakov, Min-Yen Kan, William Yang Wang, Mong-Li Lee, Wynne Hsu

AAAI 2025 Multi-Granular Multimodal Clue Fusion for Meme Understanding Li Zheng, Hao Fei, Ting Dai, Zuquan Peng, Fei Li, Huisheng Ma, Chong Teng, Donghong Ji

ICML 2025 On Path to Multimodal Generalist: General-Level and General-Bench Hao Fei, Yuan Zhou, Juncheng Li, Xiangtai Li, Qingshan Xu, Bobo Li, Shengqiong Wu, Yaoting Wang, Junbao Zhou, Jiahao Meng, Qingyu Shi, Zhiyuan Zhou, Liangtao Shi, Minghe Gao, Daoan Zhang, Zhiqi Ge, Siliang Tang, Kaihang Pan, Yaobo Ye, Haobo Yuan, Tao Zhang, Weiming Wu, Tianjie Ju, Zixiang Meng, Shilin Xu, Liyu Jia, Wentao Hu, Meng Luo, Jiebo Luo, Tat-Seng Chua, Shuicheng Yan, Hanwang Zhang

ICCV 2025 PhysSplat: Efficient Physics Simulation for 3D Scenes via MLLM-Guided Gaussian Splatting Haoyu Zhao, Hao Wang, Xingyue Zhao, Hao Fei, Hongqiu Wang, Chengjiang Long, Hua Zou

ICLR 2025 Towards Semantic Equivalence of Tokenization in Multimodal LLM Shengqiong Wu, Hao Fei, Xiangtai Li, Jiayi Ji, Hanwang Zhang, Tat-Seng Chua, Shuicheng Yan

CVPR 2025 Universal Scene Graph Generation Shengqiong Wu, Hao Fei, Tat-seng Chua

AAAI 2025 VEGAS: Towards Visually Explainable and Grounded Artificial Social Intelligence Hao Li, Hao Fei, Zechao Hu, Zhengwei Yang, Zheng Wang

NeurIPS 2025 VimoRAG: Video-Based Retrieval-Augmented 3D Motion Generation for Motion Language Models Haidong Xu, Guangwei Xu, Zhedong Zheng, Xiatian Zhu, Wei Ji, Xiangtai Li, Ruijie Guo, Meishan Zhang, Min Zhang, Hao Fei

NeurIPS 2025 Visual Thoughts: A Unified Perspective of Understanding Multimodal Chain-of-Thought Zihui Cheng, Qiguang Chen, Xiao Xu, Jiaqi Wang, Weiyun Wang, Hao Fei, Yidong Wang, Alex Jinpeng Wang, Zhi Chen, Wanxiang Che, Libo Qin

ICML 2025 Watch Out Your Album! on the Inadvertent Privacy Memorization in Multi-Modal Large Language Models Tianjie Ju, Yi Hua, Hao Fei, Zhenyu Shao, Yubin Zheng, Haodong Zhao, Mong-Li Lee, Wynne Hsu, Zhuosheng Zhang, Gongshen Liu

ICCV 2025 Where, What, Why: Towards Explainable Driver Attention Prediction Yuchen Zhou, Jiayu Tang, Xiaoyan Xiao, Yueyao Lin, Linkai Liu, Zipeng Guo, Hao Fei, Xiaobo Xia, Chao Gou

NeurIPS 2024 ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models Mingrui Wu, Xinyue Cai, Jiayi Ji, Jiale Li, Oucheng Huang, Gen Luo, Hao Fei, Guannan Jiang, Xiaoshuai Sun, Rongrong Ji

CVPR 2024 Dysen-VDM: Empowering Dynamics-Aware Text-to-Video Diffusion with LLMs Hao Fei, Shengqiong Wu, Wei Ji, Hanwang Zhang, Tat-Seng Chua

AAAI 2024 Harnessing Holistic Discourse Features and Triadic Interaction for Sentiment Quadruple Extraction in Dialogues Bobo Li, Hao Fei, Lizi Liao, Yu Zhao, Fangfang Su, Fei Li, Donghong Ji

AAAI 2024 Improving Expressive Power of Spectral Graph Neural Networks with Eigenvalue Correction Kangkang Lu, Yanhua Yu, Hao Fei, Xuan Li, Zixuan Yang, Zirui Guo, Meiyu Liang, Mengran Yin, Tat-Seng Chua

CVPR 2024 LL3DA: Visual Interactive Instruction Tuning for Omni-3D Understanding Reasoning and Planning Sijin Chen, Xin Chen, Chi Zhang, Mingsheng Li, Gang Yu, Hao Fei, Hongyuan Zhu, Jiayuan Fan, Tao Chen

ICML 2024 Momentor: Advancing Video Large Language Model with Fine-Grained Temporal Reasoning Long Qian, Juncheng Li, Yu Wu, Yaobo Ye, Hao Fei, Tat-Seng Chua, Yueting Zhuang, Siliang Tang

ICML 2024 NExT-GPT: Any-to-Any Multimodal LLM Shengqiong Wu, Hao Fei, Leigang Qu, Wei Ji, Tat-Seng Chua

NeurIPS 2024 OMG-LLaVA: Bridging Image-Level, Object-Level, Pixel-Level Reasoning and Understanding Tao Zhang, Xiangtai Li, Hao Fei, Haobo Yuan, Shengqiong Wu, Shunping Ji, Chen Change Loy, Shuicheng Yan

NeurIPS 2024 RG-SAN: Rule-Guided Spatial Awareness Network for End-to-End 3D Referring Expression Segmentation Changli Wu, Qi Chen, Jiayi Ji, Haowei Wang, Yiwei Ma, You Huang, Gen Luo, Hao Fei, Xiaoshuai Sun, Rongrong Ji

AAAI 2024 Reverse Multi-Choice Dialogue Commonsense Inference with Graph-of-Thought Li Zheng, Hao Fei, Fei Li, Bobo Li, Lizi Liao, Donghong Ji, Chong Teng

NeurIPS 2024 Synergistic Dual Spatial-Aware Generation of Image-to-Text and Text-to-Image Yu Zhao, Hao Fei, Xiangtai Li, Libo Qin, Jiayi Ji, Hongyuan Zhu, Meishan Zhang, Min Zhang, Jianguo Wei

NeurIPS 2024 Towards Unified Multimodal Editing with Enhanced Knowledge Collaboration Kaihang Pan, Zhaoyu Fan, Juncheng Li, Qifan Yu, Hao Fei, Siliang Tang, Richang Hong, Hanwang Zhang, Qianru Sun

NeurIPS 2024 Unified Generative and Discriminative Training for Multi-Modal Large Language Models Wei Chow, Juncheng Li, Qifan Yu, Kaihang Pan, Hao Fei, Zhiqi Ge, Shuai Yang, Siliang Tang, Hanwang Zhang, Qianru Sun

ICML 2024 Video-of-Thought: Step-by-Step Video Reasoning from Perception to Cognition Hao Fei, Shengqiong Wu, Wei Ji, Hanwang Zhang, Meishan Zhang, Mong-Li Lee, Wynne Hsu

NeurIPS 2024 Vitron: A Unified Pixel-Level Vision LLM for Understanding, Generating, Segmenting, Editing Hao Fei, Shengqiong Wu, Hanwang Zhang, Tat-Seng Chua, Shuicheng Yan

NeurIPS 2024 What Factors Affect Multi-Modal In-Context Learning? an In-Depth Exploration Libo Qin, Qiguang Chen, Hao Fei, Zhi Chen, Min Li, Wanxiang Che

NeurIPS 2023 Imagine That! Abstract-to-Intricate Text-to-Image Synthesis with Scene Graph Hallucination Diffusion Shengqiong Wu, Hao Fei, Hanwang Zhang, Tat-Seng Chua

NeurIPS 2023 VPGTrans: Transfer Visual Prompt Generator Across LLMs Ao Zhang, Hao Fei, Yuan Yao, Wei Ji, Li Li, Zhiyuan Liu, Tat-Seng Chua

IJCAI 2022 Conversational Semantic Role Labeling with Predicate-Oriented Latent Graph Hao Fei, Shengqiong Wu, Meishan Zhang, Yafeng Ren, Donghong Ji

IJCAI 2022 Global Inference with Explicit Syntactic and Discourse Structures for Dialogue-Level Relation Extraction Hao Fei, Jingye Li, Shengqiong Wu, Chenliang Li, Donghong Ji, Fei Li

IJCAI 2022 Inheriting the Wisdom of Predecessors: A Multiplex Cascade Framework for Unified Aspect-Based Sentiment Analysis Hao Fei, Fei Li, Chenliang Li, Shengqiong Wu, Jingye Li, Donghong Ji

NeurIPS 2022 LasUIE: Unifying Information Extraction with Latent Adaptive Structure-Aware Generative Language Model Hao Fei, Shengqiong Wu, Jingye Li, Bobo Li, Fei Li, Libo Qin, Meishan Zhang, Min Zhang, Tat-Seng Chua

AAAI 2022 Mastering the Explicit Opinion-Role Interaction: Syntax-Aided Neural Transition System for Unified Opinion Role Labeling Shengqiong Wu, Hao Fei, Fei Li, Meishan Zhang, Yijiang Liu, Chong Teng, Donghong Ji

ICML 2022 Matching Structure for Dual Learning Hao Fei, Shengqiong Wu, Yafeng Ren, Meishan Zhang

AAAI 2022 Unified Named Entity Recognition as Word-Word Relation Classification Jingye Li, Hao Fei, Jiang Liu, Shengqiong Wu, Meishan Zhang, Chong Teng, Donghong Ji, Fei Li

AAAI 2021 Encoder-Decoder Based Unified Semantic Role Labeling with Label-Aware Syntax Hao Fei, Fei Li, Bobo Li, Donghong Ji

AAAI 2021 End-to-End Semantic Role Labeling with Neural Transition-Based Model Hao Fei, Meishan Zhang, Bobo Li, Donghong Ji

IJCAI 2021 Learn from Syntax: Improving Pair-Wise Aspect and Opinion Terms Extraction with Rich Syntactic Knowledge Shengqiong Wu, Hao Fei, Yafeng Ren, Donghong Ji, Jingye Li

AAAI 2021 Rethinking Boundaries: End-to-End Recognition of Discontinuous Mentions with Pointer Networks Hao Fei, Donghong Ji, Bobo Li, Yijiang Liu, Yafeng Ren, Fei Li

AAAI 2020 Latent Emotion Memory for Multi-Label Emotion Classification Hao Fei, Yue Zhang, Yafeng Ren, Donghong Ji