Wang, Lijuan

83 publications

CVPR 2025 ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation Yifan Pu, Yiming Zhao, Zhicong Tang, Ruihong Yin, Haoxing Ye, Yuhui Yuan, Dong Chen, Jianmin Bao, Sirui Zhang, Yanbin Wang, Lin Liang, Lijuan Wang, Ji Li, Xiu Li, Zhouhui Lian, Gao Huang, Baining Guo

ICML 2025 Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark Yunzhuo Hao, Jiawei Gu, Huichen Will Wang, Linjie Li, Zhengyuan Yang, Lijuan Wang, Yu Cheng

ICLR 2025 CertainlyUncertain: A Benchmark and Metric for Multimodal Epistemic and Aleatoric Awareness Khyathi Chandu, Linjie Li, Anas Awadalla, Ximing Lu, Jae Sung Park, Jack Hessel, Lijuan Wang, Yejin Choi

ICLR 2025 EditRoom: LLM-Parameterized Graph Diffusion for Composable 3D Room Layout Editing Kaizhi Zheng, Xiaotong Chen, Xuehai He, Jing Gu, Linjie Li, Zhengyuan Yang, Kevin Lin, Jianfeng Wang, Lijuan Wang, Xin Eric Wang

ICLR 2025 GenXD: Generating Any 3D and 4D Scenes Yuyang Zhao, Chung-Ching Lin, Kevin Lin, Zhiwen Yan, Linjie Li, Zhengyuan Yang, Jianfeng Wang, Gim Hee Lee, Lijuan Wang

ICCV 2025 ImageGen-CoT: Enhancing Text-to-Image In-Context Learning with Chain-of-Thought Reasoning Jiaqi Liao, Zhengyuan Yang, Linjie Li, Dianqi Li, Kevin Lin, Yu Cheng, Lijuan Wang

CVPR 2025 LiVOS: Light Video Object Segmentation with Gated Linear Matching Qin Liu, Jianfeng Wang, Zhengyuan Yang, Linjie Li, Kevin Lin, Marc Niethammer, Lijuan Wang

ICLR 2025 MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models Peng Xia, Siwei Han, Shi Qiu, Yiyang Zhou, Zhaoyang Wang, Wenhao Zheng, Zhaorun Chen, Chenhang Cui, Mingyu Ding, Linjie Li, Lijuan Wang, Huaxiu Yao

ICLR 2025 MMWorld: Towards Multi-Discipline Multi-Faceted World Model Evaluation in Videos Xuehai He, Weixi Feng, Kaizhi Zheng, Yujie Lu, Wanrong Zhu, Jiachen Li, Yue Fan, Jianfeng Wang, Linjie Li, Zhengyuan Yang, Kevin Lin, William Yang Wang, Lijuan Wang, Xin Eric Wang

NeurIPS 2025 Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning Minheng Ni, Zhengyuan Yang, Linjie Li, Chung-Ching Lin, Kevin Lin, Wangmeng Zuo, Lijuan Wang

ICCV 2025 SITE: Towards Spatial Intelligence Thorough Evaluation Wenqi Wang, Reuben Tan, Pengyue Zhu, Jianwei Yang, Zhengyuan Yang, Lijuan Wang, Andrey Kolobov, Jianfeng Gao, Boqing Gong

ICCV 2025 Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension Xiyao Wang, Zhengyuan Yang, Linjie Li, Hongjin Lu, Yuancheng Xu, Chung-Ching Lin, Kevin Lin, Furong Huang, Lijuan Wang

ICLRW 2025 Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension Xiyao Wang, Zhengyuan Yang, Linjie Li, Hongjin Lu, Yuancheng Xu, Chung-Ching Lin, Kevin Lin, Furong Huang, Lijuan Wang

CVPR 2025 ShowUI: One Vision-Language-Action Model for GUI Visual Agent Kevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Stan Weixian Lei, Lijuan Wang, Mike Zheng Shou

ICLR 2025 SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation Yining Hong, Beide Liu, Maxine Wu, Yuanhao Zhai, Kai-Wei Chang, Linjie Li, Kevin Lin, Chung-Ching Lin, Jianfeng Wang, Zhengyuan Yang, Ying Nian Wu, Lijuan Wang

NeurIPS 2025 SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement Xiyao Wang, Zhengyuan Yang, Chao Feng, Hongjin Lu, Linjie Li, Chung-Ching Lin, Kevin Lin, Furong Huang, Lijuan Wang

ICLR 2025 Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization Zichen Miao, Zhengyuan Yang, Kevin Lin, Ze Wang, Zicheng Liu, Lijuan Wang, Qiang Qiu

NeurIPS 2025 VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents Kangrui Wang, Pingyue Zhang, Zihan Wang, Yaning Gao, Linjie Li, Qineng Wang, Hanyang Chen, Yiping Lu, Zhengyuan Yang, Lijuan Wang, Ranjay Krishna, Jiajun Wu, Li Fei-Fei, Yejin Choi, Manling Li

NeurIPS 2025 ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs Xiyao Wang, Zhengyuan Yang, Chao Feng, Yuhang Zhou, Xiaoyu Liu, Yongyuan Liang, Ming Li, Ziyi Zang, Linjie Li, Chung-Ching Lin, Kevin Lin, Furong Huang, Lijuan Wang

IJCAI 2024 Bring Metric Functions into Diffusion Models Jie An, Zhengyuan Yang, Jianfeng Wang, Linjie Li, Zicheng Liu, Lijuan Wang, Jiebo Luo

ICML 2024 Completing Visual Objects via Bridging Generation and Segmentation Xiang Li, Yinpeng Chen, Chung-Ching Lin, Hao Chen, Kai Hu, Rita Singh, Bhiksha Raj, Lijuan Wang, Zicheng Liu

CVPRW 2024 Diagnostic Benchmark and Iterative Inpainting for Layout-Guided Image Generation Jaemin Cho, Linjie Li, Zhengyuan Yang, Zhe Gan, Lijuan Wang, Mohit Bansal

CVPR 2024 DisCo: Disentangled Control for Realistic Human Dance Generation Tan Wang, Linjie Li, Kevin Lin, Yuanhao Zhai, Chung-Ching Lin, Zhengyuan Yang, Hanwang Zhang, Zicheng Liu, Lijuan Wang

ECCV 2024 GRiT: A Generative Region-to-Text Transformer for Object Understanding Jialian Wu, Jianfeng Wang, Zhengyuan Yang, Zhe Gan, Zicheng Liu, Junsong Yuan, Lijuan Wang

ECCV 2024 IDOL: Unified Dual-Modal Latent Diffusion for Human-Centric Joint Video-Depth Generation Yuanhao Zhai, Kevin Lin, Linjie Li, Chung-Ching Lin, Jianfeng Wang, Zhengyuan Yang, David Doermann, Junsong Yuan, Zicheng Liu, Lijuan Wang

ECCV 2024 Idea2Img: Iterative Self-Refinement with GPT-4V for Automatic Image Design and Generation Zhengyuan Yang, Jianfeng Wang, Linjie Li, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang

NeurIPS 2024 Interfacing Foundation Models' Embeddings Xueyan Zou, Linjie Li, Jianfeng Wang, Jianwei Yang, Mingyu Ding, Junyi Wei, Zhengyuan Yang, Feng Li, Hao Zhang, Shilong Liu, Arul Aravinthan, Yong Jae Lee, Lijuan Wang

NeurIPS 2024 Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning Alex Jinpeng Wang, Linjie Li, Yiqi Lin, Min Li, Lijuan Wang, Mike Zheng Shou

CVPR 2024 MM-Narrator: Narrating Long-Form Videos with Multimodal In-Context Learning Chaoyi Zhang, Kevin Lin, Zhengyuan Yang, Jianfeng Wang, Linjie Li, Chung-Ching Lin, Zicheng Liu, Lijuan Wang

ICML 2024 MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities Weihao Yu, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Zicheng Liu, Xinchao Wang, Lijuan Wang

NeurIPSW 2024 MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models Peng Xia, Siwei Han, Shi Qiu, Yiyang Zhou, Zhaoyang Wang, Wenhao Zheng, Zhaorun Chen, Chenhang Cui, Mingyu Ding, Linjie Li, Lijuan Wang, Huaxiu Yao

CVPR 2024 MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation of Videos Jielin Qiu, Jiacheng Zhu, William Han, Aditesh Kumar, Karthik Mittal, Claire Jin, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Ding Zhao, Bo Li, Lijuan Wang

NeurIPSW 2024 MMWorld: Towards Multi-Discipline Multi-Faceted World Model Evaluation in Videos Xuehai He, Weixi Feng, Kaizhi Zheng, Yujie Lu, Wanrong Zhu, Jiachen Li, Yue Fan, Jianfeng Wang, Linjie Li, Zhengyuan Yang, Kevin Lin, William Yang Wang, Lijuan Wang, Xin Eric Wang

WACV 2024 MPT: Mesh Pre-Training with Transformers for Human Pose and Mesh Reconstruction Kevin Lin, Chung-Ching Lin, Lin Liang, Zicheng Liu, Lijuan Wang

ICLR 2024 Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning Fuxiao Liu, Kevin Lin, Linjie Li, Jianfeng Wang, Yaser Yacoob, Lijuan Wang

NeurIPS 2024 Motion Consistency Model: Accelerating Video Diffusion with Disentangled Motion-Appearance Distillation Yuanhao Zhai, Kevin Lin, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Chung-Ching Lin, David Doermann, Junsong Yuan, Lijuan Wang

AAAI 2024 ORES: Open-Vocabulary Responsible Visual Synthesis Minheng Ni, Chenfei Wu, Xiaodong Wang, Shengming Yin, Lijuan Wang, Zicheng Liu, Nan Duan

CVPR 2024 Segment and Caption Anything Xiaoke Huang, Jianfeng Wang, Yansong Tang, Zheng Zhang, Han Hu, Jiwen Lu, Lijuan Wang, Zicheng Liu

NeurIPSW 2024 ShowUI: One Vision-Language-Action Model for Generalist GUI Agent Kevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou

ICML 2024 StrokeNUWA—Tokenizing Strokes for Vector Graphic Synthesis Zecheng Tang, Chenfei Wu, Zekai Zhang, Minheng Ni, Shengming Yin, Yu Liu, Zhengyuan Yang, Lijuan Wang, Zicheng Liu, Juntao Li, Nan Duan

CVPR 2024 Training Diffusion Models Towards Diverse Image Generation with Reinforcement Learning Zichen Miao, Jiang Wang, Ze Wang, Zhengyuan Yang, Lijuan Wang, Qiang Qiu, Zicheng Liu

NeurIPS 2024 VideoGUI: A Benchmark for GUI Automation from Instructional Videos Kevin Qinghong Lin, Linjie Li, Difei Gao, Qinchen Wu, Mingyi Yan, Zhengyuan Yang, Lijuan Wang, Mike Zheng Shou

CVPR 2023 Adaptive Human Matting for Dynamic Videos Chung-Ching Lin, Jiang Wang, Kun Luo, Kevin Lin, Linjie Li, Lijuan Wang, Zicheng Liu

CVPR 2023 An Empirical Study of End-to-End Video-Language Transformers with Masked Visual Modeling Tsu-Jui Fu, Linjie Li, Zhe Gan, Kevin Lin, William Yang Wang, Lijuan Wang, Zicheng Liu

ICCV 2023 Equivariant Similarity for Vision-Language Foundation Models Tan Wang, Kevin Lin, Linjie Li, Chung-Ching Lin, Zhengyuan Yang, Hanwang Zhang, Zicheng Liu, Lijuan Wang

CVPR 2023 Generalized Decoding for Pixel, Image, and Language Xueyan Zou, Zi-Yi Dou, Jianwei Yang, Zhe Gan, Linjie Li, Chunyuan Li, Xiyang Dai, Harkirat Behl, Jianfeng Wang, Lu Yuan, Nanyun Peng, Lijuan Wang, Yong Jae Lee, Jianfeng Gao

CVPR 2023 LAVENDER: Unifying Video-Language Understanding as Masked Language Modeling Linjie Li, Zhe Gan, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Ce Liu, Lijuan Wang

IJCAI 2023 Learning 3D Photography Videos via Self-Supervised Diffusion on Single Images Xiaodong Wang, Chenfei Wu, Shengming Yin, Minheng Ni, Jianfeng Wang, Linjie Li, Zhengyuan Yang, Fan Yang, Lijuan Wang, Zicheng Liu, Yuejian Fang, Nan Duan

CVPR 2023 Neural Voting Field for Camera-Space 3D Hand Pose Estimation Lin Huang, Chung-Ching Lin, Kevin Lin, Lin Liang, Lijuan Wang, Junsong Yuan, Zicheng Liu

CVPR 2023 Non-Contrastive Learning Meets Language-Image Pre-Training Jinghao Zhou, Li Dong, Zhe Gan, Lijuan Wang, Furu Wei

ICLR 2023 Prompting GPT-3 to Be Reliable Chenglei Si, Zhe Gan, Zhengyuan Yang, Shuohang Wang, Jianfeng Wang, Jordan Lee Boyd-Graber, Lijuan Wang

CVPR 2023 ReCo: Region-Controlled Text-to-Image Generation Zhengyuan Yang, Jianfeng Wang, Zhe Gan, Linjie Li, Kevin Lin, Chenfei Wu, Nan Duan, Zicheng Liu, Ce Liu, Michael Zeng, Lijuan Wang

NeurIPS 2023 Segment Everything Everywhere All at Once Xueyan Zou, Jianwei Yang, Hao Zhang, Feng Li, Linjie Li, Jianfeng Wang, Lijuan Wang, Jianfeng Gao, Yong Jae Lee

CVPR 2023 Weakly Supervised Video Emotion Detection and Prediction via Cross-Modal Temporal Erasing Network Zhicheng Zhang, Lijuan Wang, Jufeng Yang

ECCV 2022 A Simple Approach and Benchmark for 21,000-Category Object Detection Yutong Lin, Chen Li, Yue Cao, Zheng Zhang, Jianfeng Wang, Lijuan Wang, Zicheng Liu, Han Hu

TMLR 2022 Adversarial Feature Augmentation and Normalization for Visual Recognition Tianlong Chen, Yu Cheng, Zhe Gan, Jianfeng Wang, Lijuan Wang, Jingjing Liu, Zhangyang Wang

AAAI 2022 An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA Zhengyuan Yang, Zhe Gan, Jianfeng Wang, Xiaowei Hu, Yumao Lu, Zicheng Liu, Lijuan Wang

CVPR 2022 An Empirical Study of Training End-to-End Vision-and-Language Transformers Zi-Yi Dou, Yichong Xu, Zhe Gan, Jianfeng Wang, Shuohang Wang, Lijuan Wang, Chenguang Zhu, Pengchuan Zhang, Lu Yuan, Nanyun Peng, Zicheng Liu, Michael Zeng

NeurIPS 2022 Coarse-to-Fine Vision-Language Pre-Training with Fusion in the Backbone Zi-Yi Dou, Aishwarya Kamath, Zhe Gan, Pengchuan Zhang, Jianfeng Wang, Linjie Li, Zicheng Liu, Ce Liu, Yann LeCun, Nanyun Peng, Jianfeng Gao, Lijuan Wang

CVPR 2022 Cross-Modal Representation Learning for Zero-Shot Action Recognition Chung-Ching Lin, Kevin Lin, Lijuan Wang, Zicheng Liu, Linjie Li

TMLR 2022 GIT: A Generative Image-to-Text Transformer for Vision and Language Jianfeng Wang, Zhengyuan Yang, Xiaowei Hu, Linjie Li, Kevin Lin, Zhe Gan, Zicheng Liu, Ce Liu, Lijuan Wang

NeurIPS 2022 GLIPv2: Unifying Localization and Vision-Language Understanding Haotian Zhang, Pengchuan Zhang, Xiaowei Hu, Yen-Chun Chen, Liunian Li, Xiyang Dai, Lijuan Wang, Lu Yuan, Jenq-Neng Hwang, Jianfeng Gao

CVPR 2022 Grounded Language-Image Pre-Training Liunian Harold Li, Pengchuan Zhang, Haotian Zhang, Jianwei Yang, Chunyuan Li, Yiwu Zhong, Lijuan Wang, Lu Yuan, Lei Zhang, Jenq-Neng Hwang, Kai-Wei Chang, Jianfeng Gao

CVPR 2022 Injecting Semantic Concepts into End-to-End Image Captioning Zhiyuan Fang, Jianfeng Wang, Xiaowei Hu, Lin Liang, Zhe Gan, Lijuan Wang, Yezhou Yang, Zicheng Liu

NeurIPS 2022 K-LITE: Learning Transferable Visual Models with External Knowledge Sheng Shen, Chunyuan Li, Xiaowei Hu, Yujia Xie, Jianwei Yang, Pengchuan Zhang, Zhe Gan, Lijuan Wang, Lu Yuan, Ce Liu, Kurt Keutzer, Trevor Darrell, Anna Rohrbach, Jianfeng Gao

NeurIPS 2022 NUWA-Infinity: Autoregressive over Autoregressive Generation for Infinite Visual Synthesis Jian Liang, Chenfei Wu, Xiaowei Hu, Zhe Gan, Jianfeng Wang, Lijuan Wang, Zicheng Liu, Yuejian Fang, Nan Duan

AAAI 2022 OVIS: Open-Vocabulary Visual Instance Search via Visual-Semantic Aligned Representation Learning Sheng Liu, Kevin Lin, Lijuan Wang, Junsong Yuan, Zicheng Liu

AAAI 2022 Playing Lottery Tickets with Vision and Language Zhe Gan, Yen-Chun Chen, Linjie Li, Tianlong Chen, Yu Cheng, Shuohang Wang, Jingjing Liu, Lijuan Wang, Zicheng Liu

CVPR 2022 Scaling up Vision-Language Pre-Training for Image Captioning Xiaowei Hu, Zhe Gan, Jianfeng Wang, Zhengyuan Yang, Zicheng Liu, Yumao Lu, Lijuan Wang

CVPR 2022 SwinBERT: End-to-End Transformers with Sparse Attention for Video Captioning Kevin Lin, Linjie Li, Chung-Ching Lin, Faisal Ahmed, Zhe Gan, Zicheng Liu, Yumao Lu, Lijuan Wang

ECCV 2022 UniTAB: Unifying Text and Box Outputs for Grounded Vision-Language Modeling Zhengyuan Yang, Zhe Gan, Jianfeng Wang, Xiaowei Hu, Faisal Ahmed, Zicheng Liu, Yumao Lu, Lijuan Wang

ICCV 2021 Compressing Visual-Linguistic Model via Knowledge Distillation Zhiyuan Fang, Jianfeng Wang, Xiaowei Hu, Lijuan Wang, Yezhou Yang, Zicheng Liu

CVPR 2021 DAP: Detection-Aware Pre-Training with Weak Supervision Yuanyi Zhong, Jianfeng Wang, Lijuan Wang, Jian Peng, Yu-Xiong Wang, Lei Zhang

CVPR 2021 End-to-End Human Pose and Mesh Reconstruction with Transformers Kevin Lin, Lijuan Wang, Zicheng Liu

ICCV 2021 End-to-End Semi-Supervised Object Detection with Soft Teacher Mengde Xu, Zheng Zhang, Han Hu, Jianfeng Wang, Lijuan Wang, Fangyun Wei, Xiang Bai, Zicheng Liu

CVPR 2021 M3P: Learning Universal Representations via Multitask Multilingual Multimodal Pre-Training Minheng Ni, Haoyang Huang, Lin Su, Edward Cui, Taroon Bharti, Lijuan Wang, Dongdong Zhang, Nan Duan

ICCV 2021 Mesh Graphormer Kevin Lin, Lijuan Wang, Zicheng Liu

ICLR 2021 SEED: Self-Supervised Distillation for Visual Representation Zhiyuan Fang, Jianfeng Wang, Lijuan Wang, Lei Zhang, Yezhou Yang, Zicheng Liu

CVPR 2021 TAP: Text-Aware Pre-Training for Text-VQA and Text-Caption Zhengyuan Yang, Yijuan Lu, Jianfeng Wang, Xi Yin, Dinei Florencio, Lijuan Wang, Cha Zhang, Lei Zhang, Jiebo Luo

AAAI 2021 VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning Xiaowei Hu, Xi Yin, Kevin Lin, Lei Zhang, Jianfeng Gao, Lijuan Wang, Zicheng Liu

CVPR 2021 VinVL: Revisiting Visual Representations in Vision-Language Models Pengchuan Zhang, Xiujun Li, Xiaowei Hu, Jianwei Yang, Lei Zhang, Lijuan Wang, Yejin Choi, Jianfeng Gao

ECCV 2020 Oscar: Object-Semantics Aligned Pre-Training for Vision-Language Tasks Xiujun Li, Xi Yin, Chunyuan Li, Pengchuan Zhang, Xiaowei Hu, Lei Zhang, Lijuan Wang, Houdong Hu, Li Dong, Furu Wei, Yejin Choi, Jianfeng Gao

AAAI 2020 Pyramid Constrained Self-Attention Network for Fast Video Salient Object Detection Yuchao Gu, Lijuan Wang, Ziqin Wang, Yun Liu, Ming-Ming Cheng, Shao-Ping Lu