Luo, Gen

27 publications

ICLR 2026 MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization Xiangyu Zhao, Junming Lin, Tianhao Liang, Yifan Zhou, Wenhao Chai, Yuzhe Gu, Weiyun Wang, Kai Chen, Gen Luo, Junchi Yan, Wenwei Zhang, Hua Yang, Haodong Duan, Xue Yang

ICLR 2026 MetaCaptioner: Towards Generalist Visual Captioning with Open-Source Suites Zhenxin Lei, Zhangwei Gao, Changyao Tian, Erfei Cui, Guanzhou Chen, Danni Yang, Yuchen Duan, Zhaokai Wang, Wenhao Li, Weiyun Wang, Xiangyu Zhao, Jiayi Ji, Yu Qiao, Wenhai Wang, Gen Luo

ICLR 2026 Out of the Memory Barrier: A Highly Memory-Efficient Training System for LLMs with Million-Token Contexts Wenhao Li, Daohai Yu, Gen Luo, Yuxin Zhang, Yifan Wu, Jiaxin Liu, Ziyang Gong, Zimu Liao, Fei Chao, Rongrong Ji

ICLR 2026 ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data Zhaoyang Liu, JingJing Xie, Zichen Ding, Zehao Li, Bowen Yang, Zhenyu Wu, Xuehui Wang, Qiushi Sun, Shi Liu, Weiyun Wang, Shenglong Ye, Qingyun Li, Zeyue Tian, Gen Luo, Xiangyu Yue, Biqing Qi, Kai Chen, Bowen Zhou, Yu Qiao, Qifeng Chen, Wenhai Wang

ICLR 2026 SpaCE-10: A Comprehensive Benchmark for Multimodal Large Language Models in Compositional Spatial Intelligence Ziyang Gong, Wenhao Li, Xianzheng Ma, Songyuan Li, Zhaokai Wang, Songze Li, Jiayi Ji, Xue Yang, Gen Luo, Junchi Yan, Rongrong Ji

ICLR 2026 Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning Ganlin Yang, Tianyi Zhang, Haoran Hao, Weiyun Wang, Yibin Liu, Dehui Wang, Guanzhou Chen, Zijian Cai, Junting Chen, Weijie Su, Wengang Zhou, Yu Qiao, Jifeng Dai, Jiangmiao Pang, Gen Luo, Wenhai Wang, Yao Mu, Zhi Hou

ICLR 2025 $\gamma-$MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models Yaxin Luo, Gen Luo, Jiayi Ji, Yiyi Zhou, Xiaoshuai Sun, Zhiqiang Shen, Rongrong Ji

CVPR 2025 DViN: Dynamic Visual Routing Network for Weakly Supervised Referring Expression Comprehension Xiaofu Chen, Yaxin Luo, Gen Luo, Jiayi Ji, Henghui Ding, Yiyi Zhou

ICLR 2025 Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large Language Models Gen Luo, Yiyi Zhou, Yuxin Zhang, Xiawu Zheng, Xiaoshuai Sun, Rongrong Ji

CVPR 2025 FlashSloth : Lightning Multimodal Large Language Models via Embedded Visual Compression Bo Tong, Bokai Lai, Yiyi Zhou, Gen Luo, Yunhang Shen, Ke Li, Xiaoshuai Sun, Rongrong Ji

CVPR 2025 Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-Training Gen Luo, Xue Yang, Wenhan Dou, Zhaokai Wang, Jiawen Liu, Jifeng Dai, Yu Qiao, Xizhou Zhu

NeurIPS 2025 NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models Under Data Constraints Changyao Tian, Hao Li, Gen Luo, Xizhou Zhu, Weijie Su, Hanming Deng, Jinguo Zhu, Jie Shao, Ziran Zhu, Yunpeng Liu, Lewei Lu, Wenhai Wang, Hongsheng Li, Jifeng Dai

NeurIPS 2025 Spotlight Attention: Towards Efficient LLM Generation via Non-Linear Hashing-Based KV Cache Retrieval Wenhao Li, Yuxin Zhang, Gen Luo, Haiyuan Wan, ZiYang Gong, Fei Chao, Rongrong Ji

CVPR 2025 WeakMCN: Multi-Task Collaborative Network for Weakly Supervised Referring Expression Comprehension and Segmentation Silin Cheng, Yang Liu, Xinwei He, Sebastien Ourselin, Lei Tan, Gen Luo

AAAI 2024 3D-STMN: Dependency-Driven Superpoint-Text Matching Network for End-to-End 3D Referring Expression Segmentation Changli Wu, Yiwei Ma, Qi Chen, Haowei Wang, Gen Luo, Jiayi Ji, Xiaoshuai Sun

ECCV 2024 APL: Anchor-Based Prompt Learning for One-Stage Weakly Supervised Referring Expression Comprehension Yaxin Luo, Jiayi Ji, Xiaofu Chen, Yuxin Zhang, Tianhe Ren, Gen Luo

ICML 2024 CaM: Cache Merging for Memory-Efficient LLMs Inference Yuxin Zhang, Yuxuan Du, Gen Luo, Yunshan Zhong, Zhenyu Zhang, Shiwei Liu, Rongrong Ji

NeurIPS 2024 ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models Mingrui Wu, Xinyue Cai, Jiayi Ji, Jiale Li, Oucheng Huang, Gen Luo, Hao Fei, Guannan Jiang, Xiaoshuai Sun, Rongrong Ji

ICML 2024 Fast Text-to-3D-Aware Face Generation and Manipulation via Direct Cross-Modal Mapping and Geometric Regularization Jinlu Zhang, Yiyi Zhou, Qiancheng Zheng, Xiaoxiong Du, Gen Luo, Jun Peng, Xiaoshuai Sun, Rongrong Ji

NeurIPS 2024 RG-SAN: Rule-Guided Spatial Awareness Network for End-to-End 3D Referring Expression Segmentation Changli Wu, Qi Chen, Jiayi Ji, Haowei Wang, Yiwei Ma, You Huang, Gen Luo, Hao Fei, Xiaoshuai Sun, Rongrong Ji

NeurIPS 2023 Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models Gen Luo, Yiyi Zhou, Tianhe Ren, Shengxin Chen, Xiaoshuai Sun, Rongrong Ji

CVPR 2023 RefCLIP: A Universal Teacher for Weakly Supervised Referring Expression Comprehension Lei Jin, Gen Luo, Yiyi Zhou, Xiaoshuai Sun, Guannan Jiang, Annan Shu, Rongrong Ji

CVPR 2023 RefTeacher: A Strong Baseline for Semi-Supervised Referring Expression Comprehension Jiamu Sun, Gen Luo, Yiyi Zhou, Xiaoshuai Sun, Guannan Jiang, Zhiyu Wang, Rongrong Ji

CVPR 2022 Active Teacher for Semi-Supervised Object Detection Peng Mi, Jianghang Lin, Yiyi Zhou, Yunhang Shen, Gen Luo, Xiaoshuai Sun, Liujuan Cao, Rongrong Fu, Qiang Xu, Rongrong Ji

ECCV 2022 SeqTR: A Simple yet Universal Network for Visual Grounding Chaoyang Zhu, Yiyi Zhou, Yunhang Shen, Gen Luo, Xingjia Pan, Mingbao Lin, Chao Chen, Liujuan Cao, Xiaoshuai Sun, Rongrong Ji

AAAI 2021 Improving Image Captioning by Leveraging Intra- and Inter-Layer Global Representation in Transformer Network Jiayi Ji, Yunpeng Luo, Xiaoshuai Sun, Fuhai Chen, Gen Luo, Yongjian Wu, Yue Gao, Rongrong Ji

CVPR 2020 Multi-Task Collaborative Network for Joint Referring Expression Comprehension and Segmentation Gen Luo, Yiyi Zhou, Xiaoshuai Sun, Liujuan Cao, Chenglin Wu, Cheng Deng, Rongrong Ji