Li, Manling

24 publications

ICML 2025 Bring Reason to Vision: Understanding Perception and Reasoning Through Model Merging Shiqi Chen, Jinghan Zhang, Tongyao Zhu, Wei Liu, Siyang Gao, Miao Xiong, Manling Li, Junxian He

ICLR 2025 Chain-of-Action: Faithful and Multimodal Question Answering Through Large Language Models Zhenyu Pan, Haozheng Luo, Manling Li, Han Liu

ICML 2025 EmbodiedBench: Comprehensive Benchmarking Multi-Modal Large Language Models for Vision-Driven Embodied Agents Rui Yang, Hanyang Chen, Junyu Zhang, Mark Zhao, Cheng Qian, Kangrui Wang, Qineng Wang, Teja Venkat Koripella, Marziyeh Movahedi, Manling Li, Heng Ji, Huan Zhang, Tong Zhang

NeurIPS 2025 Exploring Diffusion Transformer Designs via Grafting Keshigeyan Chandrasegaran, Michael Poli, Daniel Y Fu, Dongjun Kim, Lea M. Hadzic, Manling Li, Agrim Gupta, Stefano Massaroli, Azalia Mirhoseini, Juan Carlos Niebles, Stefano Ermon, Li Fei-Fei

AAAI 2025 From Large Language Models to Large Action Models: Reasoning and Planning with Physical World Knowledge Manling Li

CVPR 2025 LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models Fan-Yun Sun, Weiyu Liu, Siyi Gu, Dylan Lim, Goutam Bhat, Federico Tombari, Manling Li, Nick Haber, Jiajun Wu

CVPR 2025 Re-Thinking Temporal Search for Long-Form Video Understanding Jinhui Ye, Zihan Wang, Haosen Sun, Keshigeyan Chandrasegaran, Zane Durante, Cristobal Eyzaguirre, Yonatan Bisk, Juan Carlos Niebles, Ehsan Adeli, Li Fei-Fei, Jiajun Wu, Manling Li

ICML 2025 SyncMind: Measuring Agent Out-of-Sync Recovery in Collaborative Software Engineering Xuehang Guo, Xingyao Wang, Yangyi Chen, Sha Li, Chi Han, Manling Li, Heng Ji

NeurIPS 2025 VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents Kangrui Wang, Pingyue Zhang, Zihan Wang, Yaning Gao, Linjie Li, Qineng Wang, Hanyang Chen, Yiping Lu, Zhengyuan Yang, Lijuan Wang, Ranjay Krishna, Jiajun Wu, Li Fei-Fei, Yejin Choi, Manling Li

TMLR 2025 Visually Descriptive Language Model for Vector Graphics Reasoning Zhenhailong Wang, Joy Hsu, Xingyao Wang, Kuan-Hao Huang, Manling Li, Jiajun Wu, Heng Ji

ICML 2025 Why Is Spatial Reasoning Hard for VLMs? an Attention Mechanism Perspective on Focus Areas Shiqi Chen, Tongyao Zhu, Ruochen Zhou, Jinghan Zhang, Siyang Gao, Juan Carlos Niebles, Mor Geva, Junxian He, Jiajun Wu, Manling Li

NeurIPS 2024 Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making Manling Li, Shiyu Zhao, Qineng Wang, Kangrui Wang, Yu Zhou, Sanjana Srivastava, Cem Gokmen, Tony Lee, Li Erran Li, Ruohan Zhang, Weiyu Liu, Percy Liang, Li Fei-Fei, Jiayuan Mao, Jiajun Wu

NeurIPS 2024 HourVideo: 1-Hour Video-Language Understanding Keshigeyan Chandrasegaran, Agrim Gupta, Lea M. Hadzic, Taran Kota, Jimming He, Cristobal Eyzaguirre, Zane Durante, Manling Li, Jiajun Wu, Li Fei-Fei

NeurIPS 2024 IKEA Manuals at Work: 4D Grounding of Assembly Instructions on Internet Videos Yunong Liu, Cristobal Eyzaguirre, Manling Li, Shubh Khanna, Juan Carlos Niebles, Vineeth Ravi, Saumitra Mishra, Weiyu Liu, Jiajun Wu

AAAI 2023 ADEPT: A DEbiasing PrompT Framework Ke Yang, Charles Yu, Yi Ren Fung, Manling Li, Heng Ji

ICLR 2023 Learning to Decompose Visual Features with Latent Textual Prompts Feng Wang, Manling Li, Xudong Lin, Hairong Lv, Alex Schwing, Heng Ji

NeurIPS 2023 Open Visual Knowledge Extraction via Relation-Oriented Multimodality Model Prompting Hejie Cui, Xinyu Fang, Zihan Zhang, Ran Xu, Xuan Kan, Xin Liu, Yue Yu, Manling Li, Yangqiu Song, Carl Yang

CVPR 2023 Towards Fast Adaptation of Pretrained Contrastive Models for Multi-Channel Video-Language Retrieval Xudong Lin, Simran Tiwari, Shiyuan Huang, Manling Li, Mike Zheng Shou, Heng Ji, Shih-Fu Chang

AAAI 2023 Video Event Extraction via Tracking Visual States of Arguments Guang Yang, Manling Li, Jiajie Zhang, Xudong Lin, Heng Ji, Shih-Fu Chang

CVPR 2022 CLIP-Event: Connecting Text and Images with Event Structures Manling Li, Ruochen Xu, Shuohang Wang, Luowei Zhou, Xudong Lin, Chenguang Zhu, Michael Zeng, Heng Ji, Shih-Fu Chang

NeurIPS 2022 Language Models with Image Descriptors Are Strong Few-Shot Video-Language Learners Zhenhailong Wang, Manling Li, Ruochen Xu, Luowei Zhou, Jie Lei, Xudong Lin, Shuohang Wang, Ziyi Yang, Chenguang Zhu, Derek Hoiem, Shih-Fu Chang, Mohit Bansal, Heng Ji

AAAI 2022 MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media Knowledge Extraction and Grounding Revanth Gangi Reddy, Xilin Rui, Manling Li, Xudong Lin, Haoyang Wen, Jaemin Cho, Lifu Huang, Mohit Bansal, Avirup Sil, Shih-Fu Chang, Alexander G. Schwing, Heng Ji

AAAI 2018 Path-Based Attention Neural Model for Fine-Grained Entity Typing Denghui Zhang, Manling Li, Pengshan Cai, Yantao Jia, Yuanzhuo Wang

AAAI 2016 Predicting Links and Their Building Time: A Path-Based Approach Manling Li, Yantao Jia, Yuanzhuo Wang, Zeya Zhao, Xueqi Cheng