Chen, Wenhu

65 publications

TMLR 2026 BrowserAgent: Building Web Agents with Human-Inspired Web Browsing Actions Tao Yu, Zhengbo Zhang, Zhiheng Lyu, Junhao Gong, Hongzhu Yi, Xinming Wang, Yuxuan Zhou, Jiabing Yang, Ping Nie, Yan Huang, Wenhu Chen

ICLR 2026 Critique-Coder: Enhancing Coder Models by Critique Reinforcement Learning Chi Ruan, Dongfu Jiang, Yubo Wang, Wenhu Chen

ICLR 2026 EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing Keming Wu, Sicong Jiang, Max Ku, Ping Nie, Minghao Liu, Wenhu Chen

ICLR 2026 Emergent Hierarchical Reasoning in LLMs Through Reinforcement Learning Haozhe Wang, Qixin Xu, Che Liu, Junhong Wu, Fangzhen Lin, Wenhu Chen

ICLR 2026 ImagenWorld: Stress-Testing Image Generation Models with Explainable Human Evaluation on Open-Ended Real-World Tasks Samin Mahdizadeh Sani, Max Ku, Nima Jamali, Matina Mahdizadeh Sani, Paria Khoshtab, Wei-Chieh Sun, Parnian Fazel, Zhi Rui Tam, Thomas Chong, Edisy Kin Wai Chan, Donald Wai Tong Tsang, Chiao-Wei Hsu, Lam Ting Wai, Ho Yin Sam Ng, Chiafeng Chu, Chak-Wing Mak, Keming Wu, Hiu Tung Wong, Yik Chun Ho, Chi Ruan, Zhuofeng Li, I-Sheng Fang, Shih-Ying Yeh, Ho Kei Cheng, Ping Nie, Wenhu Chen

ICLR 2026 NeuralOS: Towards Simulating Operating Systems via Neural Generative Models Luke Rivard, Sun Sun, Hongyu Guo, Wenhu Chen, Yuntian Deng

TMLR 2026 QuickVideo: Real-Time Long Video Understanding with System Algorithm Co-Design Benjamin Schneider, Dongfu Jiang, Chao Du, Tianyu Pang, Wenhu Chen

TMLR 2026 StructEval: Benchmarking LLMs' Capabilities to Generate Structural Outputs Jialin Yang, Dongfu Jiang, Tony He, Sherman Siu, Yuxuan Zhang, Disen Liao, Zhuofeng Li, Huaye Zeng, Yiming Jia, Haozhe Wang, Benjamin Schneider, Chi Ruan, Wentao Ma, Zhiheng Lyu, Yifei Wang, Yi Lu, Quy Duc Do, Ziyan Jiang, Ping Nie, Wenhu Chen

ICLR 2026 UniVideo: Unified Understanding, Generation, and Editing for Videos Cong Wei, Quande Liu, Zixuan Ye, Qiulin Wang, Xintao Wang, Pengfei Wan, Kun Gai, Wenhu Chen

TMLR 2026 VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents Rui Meng, Ziyan Jiang, Ye Liu, Mingyi Su, Xinyi Yang, Yuepeng Fu, Can Qin, Raghuveer Thirukovalluru, Xuan Zhang, Zeyuan Chen, Ran Xu, Caiming Xiong, Yingbo Zhou, Wenhu Chen, Semih Yavuz

ICLR 2026 VisCoder2: Building Multi-Language Visualization Coding Agents Yuansheng Ni, Songcheng Cai, Xiangchao Chen, Jiarong Liang, Zhiheng Lyu, Jiaqi Deng, Kai Zou, Ping Nie, Fei Yuan, Xiang Yue, Wenhu Chen

ICLR 2026 YuE: Scaling Open Foundation Models for Long-Form Music Generation Ruibin Yuan, Hanfeng Lin, Shuyue Guo, Ge Zhang, Jiahao Pan, Yongyi Zang, Haohe Liu, Yiming Liang, Wenye Ma, Xingjian Du, Xeron Du, Zhen Ye, Tianyu Zheng, Zhengxuan Jiang, Yinghao Ma, Minghao Liu, Zeyue Tian, Ziya Zhou, Liumeng Xue, Xingwei Qu, Yizhi Li, Shangda Wu, Tianhao Shen, Ziyang Ma, Jun Zhan, Chunhui Wang, Yatian Wang, Xiaowei Chi, Xinyue Zhang, Zhenzhu Yang, XiangzhouWang, Shansong Liu, Lingrui Mei, Peng Li, Junjie Wang, Jianwei Yu, Guojian Pang, Xu Li, Zihao Wang, Xiaohuan Zhou, Lijun Yu, Emmanouil Benetos, Yong Chen, Chenghua Lin, Xie Chen, Gus Xia, Zhaoxiang Zhang, Chao Zhang, Wenhu Chen, Xinyu Zhou, Xipeng Qiu, Roger Dannenberg, Jiaheng Liu, Jian Yang, Wenhao Huang, Wei Xue, Xu Tan, Yike Guo

TMLR 2025 ABC: Achieving Better Control of Visual Embeddings Using VLLMs Benjamin Schneider, Florian Kerschbaum, Wenhu Chen

NeurIPS 2025 Breaking the Batch Barrier (b3) of Contrastive Learning via Smart Batch Mining Raghuveer Thirukovalluru, Rui Meng, Ye Liu, Karthikeyan K, Mingyi Su, Ping Nie, Semih Yavuz, Yingbo Zhou, Wenhu Chen, Bhuwan Dhingra

ICLRW 2025 CodeEditorBench: Evaluating Code Editing Capability of LLMs Jiawei Guo, Ziming Li, Xueling Liu, Kaijing Ma, Tianyu Zheng, Zhouliang Yu, Ding Pan, Yizhi Li, Ruibo Liu, Yue Wang, Shuyue Guo, Xingwei Qu, Xiang Yue, Ge Zhang, Wenhu Chen, Jie Fu

NeurIPS 2025 General-Reasoner: Advancing LLM Reasoning Across All Domains Xueguang Ma, Qian Liu, Dongfu Jiang, Ge Zhang, Zejun Ma, Wenhu Chen

ICLR 2025 Harnessing Webpage UIs for Text-Rich Visual Understanding Junpeng Liu, Tianyue Ou, Yifan Song, Yuxiao Qu, Wai Lam, Chenyan Xiong, Wenhu Chen, Graham Neubig, Xiang Yue

TMLR 2025 Long-Context LLMs Struggle with Long In-Context Learning Tianle Li, Ge Zhang, Quy Duc Do, Xiang Yue, Wenhu Chen

ICLR 2025 MEGA-Bench: Scaling Multimodal Evaluation to over 500 Real-World Tasks Jiacheng Chen, Tianhao Liang, Sherman Siu, Zhengqing Wang, Kai Wang, Yubo Wang, Yuansheng Ni, Ziyan Jiang, Wang Zhu, Bohan Lyu, Dongfu Jiang, Xuan He, Yuan Liu, Hexiang Hu, Xiang Yue, Wenhu Chen

NeurIPS 2025 MoCha: Towards Movie-Grade Talking Character Generation Cong Wei, Bo Sun, Haoyu Ma, Ji Hou, Felix Juefei-Xu, Zecheng He, Xiaoliang Dai, Luxin Zhang, Kunpeng Li, Tingbo Hou, Animesh Sinha, Peter Vajda, Wenhu Chen

ICLR 2025 OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision Cong Wei, Zheyang Xiong, Weiming Ren, Xeron Du, Ge Zhang, Wenhu Chen

NeurIPS 2025 Pixel Reasoner: Incentivizing Pixel Space Reasoning via Curiosity-Driven Reinforcement Learning Alex Su, Haozhe Wang, Weiming Ren, Fangzhen Lin, Wenhu Chen

TMLR 2025 PixelWorld: Towards Perceiving Everything as Pixels Zhiheng Lyu, Xueguang Ma, Wenhu Chen

ICLR 2025 T2V-Turbo-V2: Enhancing Video Model Post-Training Through Data, Reward, and Conditional Guidance Design Jiachen Li, Qian Long, Jian Zheng, Xiaofeng Gao, Robinson Piramuthu, Wenhu Chen, William Yang Wang

CVPR 2025 VISTA: Enhancing Long-Duration and High-Resolution Video Understanding by Video Spatiotemporal Augmentation Weiming Ren, Huan Yang, Jie Min, Cong Wei, Wenhu Chen

NeurIPS 2025 VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning Haozhe Wang, Chao Qu, Zuming Huang, Wei Chu, Fangzhen Lin, Wenhu Chen

ICLR 2025 VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks Ziyan Jiang, Rui Meng, Xinyi Yang, Semih Yavuz, Yingbo Zhou, Wenhu Chen

ICCV 2025 Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers Weiming Ren, Wentao Ma, Huan Yang, Cong Wei, Ge Zhang, Wenhu Chen

TMLR 2024 AnyV2V: A Tuning-Free Framework for Any Video-to-Video Editing Tasks Max Ku, Cong Wei, Weiming Ren, Huan Yang, Wenhu Chen

TMLR 2024 ConsistI2V: Enhancing Visual Consistency for Image-to-Video Generation Weiming Ren, Huan Yang, Ge Zhang, Cong Wei, Xinrun Du, Wenhao Huang, Wenhu Chen

NeurIPS 2024 GenAI Arena: An Open Evaluation Platform for Generative Models Dongfu Jiang, Max Ku, Tianle Li, Yuansheng Ni, Shizhuo Sun, Rongqi Fan, Wenhu Chen

ICLR 2024 ImagenHub: Standardizing the Evaluation of Conditional Image Generation Models Max Ku, Tianle Li, Kai Zhang, Yujie Lu, Xingyu Fu, Wenwen Zhuang, Wenhu Chen

CVPR 2024 Instruct-Imagen: Image Generation with Multi-Modal Instruction Hexiang Hu, Kelvin C.K. Chan, Yu-Chuan Su, Wenhu Chen, Yandong Li, Kihyuk Sohn, Yang Zhao, Xue Ben, Boqing Gong, William Cohen, Ming-Wei Chang, Xuhui Jia

ICLR 2024 Kosmos-G: Generating Images in Context with Multimodal Large Language Models Xichen Pan, Li Dong, Shaohan Huang, Zhiliang Peng, Wenhu Chen, Furu Wei

NeurIPS 2024 MAmmoTH2: Scaling Instructions from the Web Xiang Yue, Tuney Zheng, Ge Zhang, Wenhu Chen

ICLR 2024 MAmmoTH: Building Math Generalist Models Through Hybrid Instruction Tuning Xiang Yue, Xingwei Qu, Ge Zhang, Yao Fu, Wenhao Huang, Huan Sun, Yu Su, Wenhu Chen

ICLR 2024 MERT: Acoustic Music Understanding Model with Large-Scale Self-Supervised Training Yizhi Li, Ruibin Yuan, Ge Zhang, Yinghao Ma, Xingran Chen, Hanzhi Yin, Chenghao Xiao, Chenghua Lin, Anton Ragni, Emmanouil Benetos, Norbert Gyenge, Roger Dannenberg, Ruibo Liu, Wenhu Chen, Gus Xia, Yemin Shi, Wenhao Huang, Zili Wang, Yike Guo, Jie Fu

NeurIPS 2024 MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark Yubo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Abhranil Chandra, Shiguang Guo, Weiming Ren, Aaran Arulraj, Xuan He, Ziyan Jiang, Tianle Li, Max Ku, Kai Wang, Alex Zhuang, Rongqi Fan, Xiang Yue, Wenhu Chen

CVPR 2024 MMMU: A Massive Multi-Discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI Xiang Yue, Yuansheng Ni, Kai Zhang, Tianyu Zheng, Ruoqi Liu, Ge Zhang, Samuel Stevens, Dongfu Jiang, Weiming Ren, Yuxuan Sun, Cong Wei, Botao Yu, Ruibin Yuan, Renliang Sun, Ming Yin, Boyuan Zheng, Zhenzhu Yang, Yibo Liu, Wenhao Huang, Huan Sun, Yu Su, Wenhu Chen

ICML 2024 MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions Kai Zhang, Yi Luan, Hexiang Hu, Kenton Lee, Siyuan Qiao, Wenhu Chen, Yu Su, Ming-Wei Chang

TMLR 2024 Mantis: Interleaved Multi-Image Instruction Tuning Dongfu Jiang, Xuan He, Huaye Zeng, Cong Wei, Max Ku, Qian Liu, Wenhu Chen

TMLR 2024 Reward Guided Latent Consistency Distillation Jiachen Li, Weixi Feng, Wenhu Chen, William Yang Wang

WACV 2024 Synthesizing Coherent Story with Auto-Regressive Latent Diffusion Models Xichen Pan, Pengda Qin, Yuhong Li, Hui Xue, Wenhu Chen

NeurIPS 2024 T2V-Turbo: Breaking the Quality Bottleneck of Video Consistency Model with Mixed Reward Feedback Jiachen Li, Weixi Feng, Tsu-Jui Fu, Xinyi Wang, Sugato Basu, Wenhu Chen, William Yang Wang

TMLR 2024 TIGERScore: Towards Building Explainable Metric for All Text Generation Tasks Dongfu Jiang, Yishan Li, Ge Zhang, Wenhao Huang, Bill Yuchen Lin, Wenhu Chen

ICML 2024 Understanding Reasoning Ability of Language Models from the Perspective of Reasoning Paths Aggregation Xinyi Wang, Alfonso Amayuelas, Kexun Zhang, Liangming Pan, Wenhu Chen, William Yang Wang

ICLRW 2024 Understanding the Reasoning Ability of Language Models from the Perspective of Reasoning Paths Aggregation Xinyi Wang, Alfonso Amayuelas, Kexun Zhang, Liangming Pan, Wenhu Chen, William Yang Wang

ECCV 2024 UniIR: Training and Benchmarking Universal Multimodal Information Retrievers Cong Wei, Yang Chen, Haonan Chen, Hexiang Hu, Ge Zhang, Jie Fu, Alan Ritter, Wenhu Chen

NeurIPS 2024 WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences Yujie Lu, Dongfu Jiang, Wenhu Chen, William Yang Wang, Yejin Choi, Bill Yuchen Lin

TMLR 2023 DreamEdit: Subject-Driven Image Editing Tianle Li, Max Ku, Cong Wei, Wenhu Chen

NeurIPS 2023 MARBLE: Music Audio Representation Benchmark for Universal Evaluation Ruibin Yuan, Yinghao Ma, Yizhi Li, Ge Zhang, Xingran Chen, Hanzhi Yin, Zhuo Le, Yiqi Liu, Jiawen Huang, Zeyue Tian, Binyue Deng, Ningzhi Wang, Chenghua Lin, Emmanouil Benetos, Anton Ragni, Norbert Gyenge, Roger Dannenberg, Wenhu Chen, Gus Xia, Wei Xue, Si Liu, Shi Wang, Ruibo Liu, Yike Guo, Jie Fu

NeurIPS 2023 MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing Kai Zhang, Lingbo Mo, Wenhu Chen, Huan Sun, Yu Su

TMLR 2023 Program of Thoughts Prompting: Disentangling Computation from Reasoning for Numerical Reasoning Tasks Wenhu Chen, Xueguang Ma, Xinyi Wang, William W. Cohen

AAAI 2023 QA Is the New KR: Question-Answer Pairs as Knowledge Bases William W. Cohen, Wenhu Chen, Michiel de Jong, Nitish Gupta, Alessandro Presta, Pat Verga, John Wieting

ICLR 2023 Re-Imagen: Retrieval-Augmented Text-to-Image Generator Wenhu Chen, Hexiang Hu, Chitwan Saharia, William W. Cohen

NeurIPS 2023 Subject-Driven Text-to-Image Generation via Apprenticeship Learning Wenhu Chen, Hexiang Hu, Yandong Li, Nataniel Ruiz, Xuhui Jia, Ming-Wei Chang, William W. Cohen

NeurIPS 2021 Counterfactual Maximum Likelihood Estimation for Training Deep Networks Xinyi Wang, Wenhu Chen, Michael Saxon, William Yang Wang

NeurIPS 2021 Local Explanation of Dialogue Response Generation Yi-Lin Tuan, Connor Pryor, Wenhu Chen, Lise Getoor, William Yang Wang

WACV 2021 Meta Module Network for Compositional Visual Reasoning Wenhu Chen, Zhe Gan, Linjie Li, Yu Cheng, William Wang, Jingjing Liu

ICLR 2021 Open Question Answering over Tables and Text Wenhu Chen, Ming-Wei Chang, Eva Schlinger, William Yang Wang, William W. Cohen

AAAI 2020 Generative Adversarial Zero-Shot Relational Learning for Knowledge Graphs Pengda Qin, Xin Wang, Wenhu Chen, Chunyun Zhang, Weiran Xu, William Yang Wang

ICLR 2020 TabFact: A Large-Scale Dataset for Table-Based Fact Verification Wenhu Chen, Hongmin Wang, Jianshu Chen, Yunkai Zhang, Hong Wang, Shiyang Li, Xiyou Zhou, William Yang Wang

CVPR 2020 Violin: A Large-Scale Dataset for Video-and-Language Inference Jingzhou Liu, Wenhu Chen, Yu Cheng, Zhe Gan, Licheng Yu, Yiming Yang, Jingjing Liu

NeurIPS 2019 Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time Series Forecasting Shiyang Li, Xiaoyong Jin, Yao Xuan, Xiyou Zhou, Wenhu Chen, Yu-Xiang Wang, Xifeng Yan

CVPR 2018 Video Captioning via Hierarchical Reinforcement Learning Xin Wang, Wenhu Chen, Jiawei Wu, Yuan-Fang Wang, William Yang Wang