Song, Wenxuan

5 publications

ICLR 2026 Spatial Forcing: Implicit Spatial Representation Alignment for Vision-Language-Action Model Fuhao Li, Wenxuan Song, Han Zhao, Jingbo Wang, Pengxiang Ding, Donglin Wang, Long Zeng, Haoang Li

ICLR 2026 Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denosing Diffusion Process Jiayi Chen, Wenxuan Song, Pengxiang Ding, Ziyang Zhou, Han Zhao, Feilong Tang, Donglin Wang, Haoang Li

ICCV 2025 GlassWizard: Harvesting Diffusion Priors for Glass Surface Detection Wenxue Li, Tian Ye, Xinyu Xiong, Jinbin Bai, Feilong Tang, Wenxuan Song, Zhaohu Xing, Lie Ju, Guanbin Li, Lei Zhu

CVPR 2025 Seeing Far and Clearly: Mitigating Hallucinations in MLLMs with Attention Causal Decoding Feilong Tang, Chengzhi Liu, Zhongxing Xu, Ming Hu, Zile Huang, Haochen Xue, Ziyang Chen, Zelin Peng, Zhiwei Yang, Sijin Zhou, Wenxue Li, Yulong Li, Wenxuan Song, Shiyan Su, Wei Feng, Jionglong Su, Mingquan Lin, Yifan Peng, Xuelian Cheng, Imran Razzak, Zongyuan Ge

ECCV 2024 QUAR-VLA: Vision-Language-Action Model for Quadruped Robots Pengxiang Ding, Han Zhao, Wenjie Zhang, Wenxuan Song, Min Zhang, Siteng Huang, Ningxi Yang, Donglin Wang