Yang, Jianwei

58 publications

NeurIPS 2025 Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation Jitesh Jain, Zhengyuan Yang, Humphrey Shi, Jianfeng Gao, Jianwei Yang

CVPR 2025 Florence-VL: Enhancing Vision-Language Models with Generative Vision Encoder and Depth-Breadth Fusion Jiuhai Chen, Jianwei Yang, Haiping Wu, Dianqi Li, Jianfeng Gao, Tianyi Zhou, Bin Xiao

NeurIPS 2025 GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents Qianhui Wu, Kanzhi Cheng, Rui Yang, Chaoyun Zhang, Jianwei Yang, Huiqiang Jiang, Jian Mu, Baolin Peng, Bo Qiao, Reuben Tan, Si Qin, Lars Liden, Qingwei Lin, Huan Zhang, Tong Zhang, Jianbing Zhang, Dongmei Zhang, Jianfeng Gao

CVPR 2025 Is Your World Simulator a Good Story Presenter? a Consecutive Events-Based Benchmark for Future Long Video Generation Yiping Wang, Xuehai He, Kuan Wang, Luyao Ma, Jianwei Yang, Shuohang Wang, Simon Shaolei Du, Yelong Shen

ICLR 2025 Latent Action Pretraining from Videos Seonghyeon Ye, Joel Jang, Byeongguk Jeon, Se June Joo, Jianwei Yang, Baolin Peng, Ajay Mandlekar, Reuben Tan, Yu-Wei Chao, Bill Yuchen Lin, Lars Liden, Kimin Lee, Jianfeng Gao, Luke Zettlemoyer, Dieter Fox, Minjoon Seo

CVPR 2025 Magma: A Foundation Model for Multimodal AI Agents Jianwei Yang, Reuben Tan, Qianhui Wu, Ruijie Zheng, Baolin Peng, Yongyuan Liang, Yu Gu, Mu Cai, Seonghyeon Ye, Joel Jang, Yuquan Deng, Jianfeng Gao

ICLR 2025 Matryoshka Multimodal Models Mu Cai, Jianwei Yang, Jianfeng Gao, Yong Jae Lee

NeurIPS 2025 MindJourney: Test-Time Scaling with World Models for Spatial Reasoning Yuncong Yang, Jiageng Liu, Zheyuan Zhang, Siyuan Zhou, Reuben Tan, Jianwei Yang, Yilun Du, Chuang Gan

ICML 2025 ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding Xingyu Fu, Minqian Liu, Zhengyuan Yang, John Richard Corring, Yijuan Lu, Jianwei Yang, Dan Roth, Dinei Florencio, Cha Zhang

ICLRW 2025 ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding Xingyu Fu, Minqian Liu, Zhengyuan Yang, John Richard Corring, Yijuan Lu, Jianwei Yang, Dan Roth, Dinei Florencio, Cha Zhang

ICCV 2025 SITE: Towards Spatial Intelligence Thorough Evaluation Wenqi Wang, Reuben Tan, Pengyue Zhu, Jianwei Yang, Zhengyuan Yang, Lijuan Wang, Andrey Kolobov, Jianfeng Gao, Boqing Gong

ICML 2025 Simplifying DINO via Coding Rate Regularization Ziyang Wu, Jingyuan Zhang, Druv Pai, Xudong Wang, Chandan Singh, Jianwei Yang, Jianfeng Gao, Yi Ma

NeurIPS 2025 Struct2D: A Perception-Guided Framework for Spatial Reasoning in MLLMs Fangrui Zhu, Hanhui Wang, Yiming Xie, Jing Gu, Tianye Ding, Jianwei Yang, Huaizu Jiang

ICLR 2025 TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies Ruijie Zheng, Yongyuan Liang, Shuaiyi Huang, Jianfeng Gao, Hal Daumé Iii, Andrey Kolobov, Furong Huang, Jianwei Yang

NeurIPS 2024 DeepStack: Deeply Stacking Visual Tokens Is Surprisingly Simple and Effective for LMMs Lingchen Meng, Jianwei Yang, Rui Tian, Xiyang Dai, Zuxuan Wu, Jianfeng Gao, Yu-Gang Jiang

ICLR 2024 Efficient Modulation for Vision Networks Xu Ma, Xiyang Dai, Jianwei Yang, Bin Xiao, Yinpeng Chen, Yun Fu, Lu Yuan

ECCV 2024 Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection Shilong Liu, Zhaoyang Zeng, Tianhe Ren, Feng Li, Hao Zhang, Jie Yang, Qing Jiang, Chunyuan Li, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang

TMLR 2024 IMProv: Inpainting-Based Multimodal Prompting for Computer Vision Tasks Jiarui Xu, Yossi Gandelsman, Amir Bar, Jianwei Yang, Jianfeng Gao, Trevor Darrell, Xiaolong Wang

NeurIPS 2024 Interfacing Foundation Models' Embeddings Xueyan Zou, Linjie Li, Jianfeng Wang, Jianwei Yang, Mingyu Ding, Junyi Wei, Zhengyuan Yang, Feng Li, Hao Zhang, Shilong Liu, Arul Aravinthan, Yong Jae Lee, Lijuan Wang

ECCV 2024 LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models Hao Zhang, Hongyang Li, Feng Li, Tianhe Ren, Xueyan Zou, Shilong Liu, Shijia Huang, Jianfeng Gao, Lei Zhang, Chunyuan Li, Jianwei Yang

ECCV 2024 LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents Shilong Liu, Hao Cheng, Haotian Liu, Hao Zhang, Feng Li, Tianhe Ren, Xueyan Zou, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang, Jianfeng Gao, Chunyuan Li

NeurIPSW 2024 Matryoshka Multimodal Models Mu Cai, Jianwei Yang, Jianfeng Gao, Yong Jae Lee

ECCV 2024 Pix2Gif: Motion-Guided Diffusion for GIF Generation Hitesh Kandala, Jianfeng Gao, Jianwei Yang

ECCV 2024 Segment and Recognize Anything at Any Granularity Feng Li, Hao Zhang, Peize Sun, Xueyan Zou, Shilong Liu, Chunyuan Li, Jianwei Yang, Lei Zhang, Jianfeng Gao

NeurIPSW 2024 TemporalBench: Benchmarking Fine-Grained Temporal Understanding for Multimodal Video Models Mu Cai, Reuben Tan, Jianrui Zhang, Bocheng Zou, Kai Zhang, Yao Feng, Fangrui Zhu, Jing Gu, Yiwu Zhong, Yuzhang Shang, Yao Dou, Jaden Park, Jianfeng Gao, Yong Jae Lee, Jianwei Yang

NeurIPS 2024 Towards Flexible Visual Relationship Segmentation Fangrui Zhu, Jianwei Yang, Huaizu Jiang

CVPR 2024 VCoder: Versatile Vision Encoders for Multimodal Large Language Models Jitesh Jain, Jianwei Yang, Humphrey Shi

CVPR 2024 Visual In-Context Prompting Feng Li, Qing Jiang, Hao Zhang, Tianhe Ren, Shilong Liu, Xueyan Zou, Huaizhe Xu, Hongyang Li, Jianwei Yang, Chunyuan Li, Lei Zhang, Jianfeng Gao

ICCV 2023 A Simple Framework for Open-Vocabulary Segmentation and Detection Hao Zhang, Feng Li, Xueyan Zou, Shilong Liu, Chunyuan Li, Jianwei Yang, Lei Zhang

NeurIPSW 2023 An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models Yadong Lu, Chunyuan Li, Haotian Liu, Jianwei Yang, Jianfeng Gao, Yelong Shen

CVPR 2023 GLIGEN: Open-Set Grounded Text-to-Image Generation Yuheng Li, Haotian Liu, Qingyang Wu, Fangzhou Mu, Jianwei Yang, Jianfeng Gao, Chunyuan Li, Yong Jae Lee

CVPR 2023 Generalized Decoding for Pixel, Image, and Language Xueyan Zou, Zi-Yi Dou, Jianwei Yang, Zhe Gan, Linjie Li, Chunyuan Li, Xiyang Dai, Harkirat Behl, Jianfeng Wang, Lu Yuan, Nanyun Peng, Lijuan Wang, Yong Jae Lee, Jianfeng Gao

NeurIPS 2023 LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day Chunyuan Li, Cliff Wong, Sheng Zhang, Naoto Usuyama, Haotian Liu, Jianwei Yang, Tristan Naumann, Hoifung Poon, Jianfeng Gao

CVPR 2023 Learning Customized Visual Models with Retrieval-Augmented Knowledge Haotian Liu, Kilho Son, Jianwei Yang, Ce Liu, Jianfeng Gao, Yong Jae Lee, Chunyuan Li

NeurIPS 2023 Learning from Rich Semantics and Coarse Locations for Long-Tailed Object Detection Lingchen Meng, Xiyang Dai, Jianwei Yang, Dongdong Chen, Yinpeng Chen, Mengchen Liu, Yi-Ling Chen, Zuxuan Wu, Lu Yuan, Yu-Gang Jiang

AAAI 2023 Parameter-Efficient Model Adaptation for Vision Transformers Xuehai He, Chunyuan Li, Pengchuan Zhang, Jianwei Yang, Xin Eric Wang

NeurIPS 2023 Segment Everything Everywhere All at Once Xueyan Zou, Jianwei Yang, Hao Zhang, Feng Li, Linjie Li, Jianfeng Wang, Lijuan Wang, Jianfeng Gao, Yong Jae Lee

NeurIPS 2022 ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented Visual Models Chunyuan Li, Haotian Liu, Liunian Li, Pengchuan Zhang, Jyoti Aneja, Jianwei Yang, Ping Jin, Houdong Hu, Zicheng Liu, Yong Jae Lee, Jianfeng Gao

ICLR 2022 Efficient Self-Supervised Vision Transformers for Representation Learning Chunyuan Li, Jianwei Yang, Pengchuan Zhang, Mei Gao, Bin Xiao, Xiyang Dai, Lu Yuan, Jianfeng Gao

NeurIPS 2022 Focal Modulation Networks Jianwei Yang, Chunyuan Li, Xiyang Dai, Jianfeng Gao

CVPR 2022 Grounded Language-Image Pre-Training Liunian Harold Li, Pengchuan Zhang, Haotian Zhang, Jianwei Yang, Chunyuan Li, Yiwu Zhong, Lijuan Wang, Lu Yuan, Lei Zhang, Jenq-Neng Hwang, Kai-Wei Chang, Jianfeng Gao

NeurIPS 2022 K-LITE: Learning Transferable Visual Models with External Knowledge Sheng Shen, Chunyuan Li, Xiaowei Hu, Yujia Xie, Jianwei Yang, Pengchuan Zhang, Zhe Gan, Lijuan Wang, Lu Yuan, Ce Liu, Kurt Keutzer, Trevor Darrell, Anna Rohrbach, Jianfeng Gao

CVPR 2022 RegionCLIP: Region-Based Language-Image Pretraining Yiwu Zhong, Jianwei Yang, Pengchuan Zhang, Chunyuan Li, Noel Codella, Liunian Harold Li, Luowei Zhou, Xiyang Dai, Lu Yuan, Yin Li, Jianfeng Gao

CVPR 2022 Unified Contrastive Learning in Image-Text-Label Space Jianwei Yang, Chunyuan Li, Pengchuan Zhang, Bin Xiao, Ce Liu, Lu Yuan, Jianfeng Gao

ICCV 2021 Dynamic DETR: End-to-End Object Detection with Dynamic Attention Xiyang Dai, Yinpeng Chen, Jianwei Yang, Pengchuan Zhang, Lu Yuan, Lei Zhang

NeurIPS 2021 Focal Attention for Long-Range Interactions in Vision Transformers Jianwei Yang, Chunyuan Li, Pengchuan Zhang, Xiyang Dai, Bin Xiao, Lu Yuan, Jianfeng Gao

ICCV 2021 Learning to Generate Scene Graph from Natural Language Supervision Yiwu Zhong, Jing Shi, Jianwei Yang, Chenliang Xu, Yin Li

ICCV 2021 Multi-Scale Vision Longformer: A New Vision Transformer for High-Resolution Image Encoding Pengchuan Zhang, Xiyang Dai, Jianwei Yang, Bin Xiao, Lu Yuan, Lei Zhang, Jianfeng Gao

ICCV 2021 TACo: Token-Aware Cascade Contrastive Learning for Video-Text Alignment Jianwei Yang, Yonatan Bisk, Jianfeng Gao

CVPR 2021 VinVL: Revisiting Visual Representations in Vision-Language Models Pengchuan Zhang, Xiujun Li, Xiaowei Hu, Jianwei Yang, Lei Zhang, Lijuan Wang, Yejin Choi, Jianfeng Gao

NeurIPS 2019 Cross-Channel Communication Networks Jianwei Yang, Zhile Ren, Chuang Gan, Hongyuan Zhu, Devi Parikh

ECCV 2018 Graph R-CNN for Scene Graph Generation Jianwei Yang, Jiasen Lu, Stefan Lee, Dhruv Batra, Devi Parikh

CoRL 2018 Visual Curiosity: Learning to Ask Questions to Learn Visual Recognition Jianwei Yang, Jiasen Lu, Stefan Lee, Dhruv Batra, Devi Parikh

NeurIPS 2017 Best of Both Worlds: Transferring Knowledge from Discriminative Learning to a Generative Visual Dialog Model Jiasen Lu, Anitha Kannan, Jianwei Yang, Devi Parikh, Dhruv Batra

ICLR 2017 LR-GAN: Layered Recursive Generative Adversarial Networks for Image Generation Jianwei Yang, Anitha Kannan, Dhruv Batra, Devi Parikh

NeurIPS 2016 Hierarchical Question-Image Co-Attention for Visual Question Answering Jiasen Lu, Jianwei Yang, Dhruv Batra, Devi Parikh

CVPR 2016 Joint Unsupervised Learning of Deep Representations and Image Clusters Jianwei Yang, Devi Parikh, Dhruv Batra

ICCVW 2013 Separating Specular and Diffuse Reflection Components in the HSI Color Space Jianwei Yang, Lixing Liu, Stan Z. Li