Ge, Yixiao

57 publications

CVPR 2025 ATP-LLaVA: Adaptive Token Pruning for Large Vision Language Models Xubing Ye, Yukang Gan, Yixiao Ge, Xiao-Ping Zhang, Yansong Tang

ICCV 2025 AnimeGamer: Infinite Anime Life Simulation with Next Game State Prediction Junhao Cheng, Yuying Ge, Yixiao Ge, Jing Liao, Ying Shan

CVPR 2025 Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation Yuying Ge, Yizhuo Li, Yixiao Ge, Ying Shan

ICCV 2025 GenHancer: Imperfect Generative Models Are Secretly Strong Vision-Centric Enhancers Shijie Ma, Yuying Ge, Teng Wang, Yuxin Guo, Yixiao Ge, Ying Shan

ICML 2025 HaploVL: A Single-Transformer Baseline for Multi-Modal Understanding Rui Yang, Lin Song, Yicheng Xiao, Runhui Huang, Yixiao Ge, Ying Shan, Hengshuang Zhao

ICML 2025 LoRA-Gen: Specializing Large Language Model via Online LoRA Generation Yicheng Xiao, Lin Song, Rui Yang, Cheng Cheng, Yixiao Ge, Xiu Li, Ying Shan

ICCV 2025 Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos Yi Chen, Yuying Ge, Weiliang Tang, Yizhuo Li, Yixiao Ge, Mingyu Ding, Ying Shan, Xihui Liu

ICCV 2025 Scalable Image Tokenization with Index Backpropagation Quantization Fengyuan Shi, Zhuoyan Luo, Yixiao Ge, Yujiu Yang, Ying Shan, Limin Wang

CVPR 2025 VoCo-Llama: Towards Vision Compression with Large Language Models Xubing Ye, Yukang Gan, Xiaoke Huang, Yixiao Ge, Yansong Tang

CVPR 2024 BT-Adapter: Video Conversation Is Feasible Without Video Instruction Tuning Ruyang Liu, Chen Li, Yixiao Ge, Thomas H. Li, Ying Shan, Ge Li

AAAI 2024 Cached Transformers: Improving Transformers with Differentiable Memory Cachde Zhaoyang Zhang, Wenqi Shao, Yixiao Ge, Xiaogang Wang, Jinwei Gu, Ping Luo

ECCV 2024 DreamDiffusion: High-Quality EEG-to-Image Generation with Temporal Masked Signal Modeling and CLIP Alignment Yunpeng Bai, Xintao Wang, Yan-Pei Cao, Yixiao Ge, Chun Yuan, Ying Shan

CVPR 2024 Low-Rank Approximation for Sparse Attention in Multi-Modal LLMs Lin Song, Yukang Chen, Shuai Yang, Xiaohan Ding, Yixiao Ge, Ying-Cong Chen, Ying Shan

ICLR 2024 Making Llama SEE and Draw with SEED Tokenizer Yuying Ge, Sijie Zhao, Ziyun Zeng, Yixiao Ge, Chen Li, Xintao Wang, Ying Shan

NeurIPS 2024 MambaTree: Tree Topology Is All You Need in State Space Model Yicheng Xiao, Lin Song, Shaoli Huang, Jiangshan Wang, Siyu Song, Yixiao Ge, Xiu Li, Ying Shan

CVPR 2024 Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities Yiyuan Zhang, Xiaohan Ding, Kaixiong Gong, Yixiao Ge, Ying Shan, Xiangyu Yue

CVPR 2024 Rethinking the Objectives of Vector-Quantized Tokenizers for Image Synthesis Yuchao Gu, Xintao Wang, Yixiao Ge, Ying Shan, Mike Zheng Shou

CVPR 2024 SEED-Bench: Benchmarking Multimodal Large Language Models Bohao Li, Yuying Ge, Yixiao Ge, Guangzhi Wang, Rui Wang, Ruimao Zhang, Ying Shan

ECCV 2024 ST-LLM: Large Language Models Are Effective Temporal Learners Ruyang Liu, Chen Li, Haoran Tang, Yixiao Ge, Ying Shan, Ge Li

CVPR 2024 SmartEdit: Exploring Complex Instruction-Based Image Editing with Multimodal Large Language Models Yuzhou Huang, Liangbin Xie, Xintao Wang, Ziyang Yuan, Xiaodong Cun, Yixiao Ge, Jiantao Zhou, Chao Dong, Rui Huang, Ruimao Zhang, Ying Shan

CVPR 2024 UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio Video Point Cloud Time-Series and Image Recognition Xiaohan Ding, Yiyuan Zhang, Yixiao Ge, Sijie Zhao, Lin Song, Xiangyu Yue, Ying Shan

CVPR 2024 ViT-Lens: Towards Omni-Modal Representations Weixian Lei, Yixiao Ge, Kun Yi, Jianfeng Zhang, Difei Gao, Dylan Sun, Yuying Ge, Ying Shan, Mike Zheng Shou

TMLR 2024 Vision-Language Instruction Tuning: A Review and Analysis Chen Li, Yixiao Ge, Dian Li, Ying Shan

CVPR 2024 YOLO-World: Real-Time Open-Vocabulary Object Detection Tianheng Cheng, Lin Song, Yixiao Ge, Wenyu Liu, Xinggang Wang, Ying Shan

ICML 2023 $\pi$-Tuning: Transferring Multimodal Foundation Models with Optimal Multi-Task Interpolation Chengyue Wu, Teng Wang, Yixiao Ge, Zeyu Lu, Ruisong Zhou, Ying Shan, Ping Luo

CVPR 2023 Accelerating Vision-Language Pretraining with Free Language Modeling Teng Wang, Yixiao Ge, Feng Zheng, Ran Cheng, Ying Shan, Xiaohu Qie, Ping Luo

CVPR 2023 All in One: Exploring Unified Video-Language Pre-Training Jinpeng Wang, Yixiao Ge, Rui Yan, Yuying Ge, Kevin Qinghong Lin, Satoshi Tsutsui, Xudong Lin, Guanyu Cai, Jianping Wu, Ying Shan, Xiaohu Qie, Mike Zheng Shou

ICCV 2023 BoxSnake: Polygonal Instance Segmentation with Box Supervision Rui Yang, Lin Song, Yixiao Ge, Xiu Li

AAAI 2023 Darwinian Model Upgrades: Model Evolving with Selective Compatibility Binjie Zhang, Shupeng Su, Yixiao Ge, Xuyuan Xu, Yexin Wang, Chun Yuan, Mike Zheng Shou, Ying Shan

ICCV 2023 Exploring Model Transferability Through the Lens of Potential Energy Xiaotong Li, Zixuan Hu, Yixiao Ge, Ying Shan, Ling-Yu Duan

NeurIPS 2023 GPT4Tools: Teaching Large Language Model to Use Tools via Self-Instruction Rui Yang, Lin Song, Yanwei Li, Sijie Zhao, Yixiao Ge, Xiu Li, Ying Shan

CVPR 2023 Learning Transferable Spatiotemporal Representations from Natural Script Knowledge Ziyun Zeng, Yuying Ge, Xihui Liu, Bin Chen, Ping Luo, Shu-Tao Xia, Yixiao Ge

ICLR 2023 Masked Image Modeling with Denoising Contrast Kun Yi, Yixiao Ge, Xiaotong Li, Shusheng Yang, Dian Li, Jianping Wu, Ying Shan, Xiaohu Qie

NeurIPS 2023 Meta-Adapter: An Online Few-Shot Learner for Vision-Language Model Cheng Cheng, Lin Song, Ruoyi Xue, Hang Wang, Hongbin Sun, Yixiao Ge, Ying Shan

NeurIPS 2023 Mix-of-Show: Decentralized Low-Rank Adaptation for Multi-Concept Customization of Diffusion Models Yuchao Gu, Xintao Wang, Jay Zhangjie Wu, Yujun Shi, Yunpeng Chen, Zihan Fan, Wuyou Xiao, Rui Zhao, Shuning Chang, Weijia Wu, Yixiao Ge, Ying Shan, Mike Zheng Shou

CVPR 2023 RILS: Masked Visual Reconstruction in Language Semantic Space Shusheng Yang, Yixiao Ge, Kun Yi, Dian Li, Ying Shan, Xiaohu Qie, Xinggang Wang

ICCV 2023 Tune-a-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation Jay Zhangjie Wu, Yixiao Ge, Xintao Wang, Stan Weixian Lei, Yuchao Gu, Yufei Shi, Wynne Hsu, Ying Shan, Xiaohu Qie, Mike Zheng Shou

ICCV 2023 Unleashing Vanilla Vision Transformer with Masked Image Modeling for Object Detection Yuxin Fang, Shusheng Yang, Shijie Wang, Yixiao Ge, Ying Shan, Xinggang Wang

AAAI 2023 Video-Text Pre-Training with Learned Regions for Retrieval Rui Yan, Mike Zheng Shou, Yixiao Ge, Jinpeng Wang, Xudong Lin, Guanyu Cai, Jinhui Tang

CVPR 2022 Bridging Video-Text Retrieval with Multiple Choice Questions Yuying Ge, Yixiao Ge, Xihui Liu, Dian Li, Ying Shan, Xiaohu Qie, Ping Luo

ICLR 2022 Dynamic Token Normalization Improves Vision Transformers Wenqi Shao, Yixiao Ge, Zhaoyang Zhang, Xuyuan Xu, Xiaogang Wang, Ying Shan, Ping Luo

ICLR 2022 Hot-Refresh Model Upgrades with Regression-Free Compatible Training in Image Retrieval Binjie Zhang, Yixiao Ge, Yantao Shen, Yu Li, Chun Yuan, Xuyuan Xu, Yexin Wang, Ying Shan

ECCV 2022 MILES: Visual BERT Pre-Training with Injected Language Semantics for Video-Text Retrieval Yuying Ge, Yixiao Ge, Xihui Liu, Jinpeng Wang, Jianping Wu, Ying Shan, Xiaohu Qie, Ping Luo

ECCV 2022 Mc-BEiT: Multi-Choice Discretization for Image BERT Pre-Training Xiaotong Li, Yixiao Ge, Kun Yi, Zixuan Hu, Ying Shan, Ling-Yu Duan

ECCV 2022 Not All Models Are Equal: Predicting Model Transferability in a Self-Challenging Fisher Space Wenqi Shao, Xun Zhao, Yixiao Ge, Zhaoyang Zhang, Lei Yang, Xiaogang Wang, Ying Shan, Ping Luo

CVPR 2022 Object-Aware Video-Language Pre-Training for Retrieval Jinpeng Wang, Yixiao Ge, Guanyu Cai, Rui Yan, Xudong Lin, Ying Shan, Xiaohu Qie, Mike Zheng Shou

IJCAI 2022 Towards Universal Backward-Compatible Representation Learning Binjie Zhang, Yixiao Ge, Yantao Shen, Shupeng Su, Fanzi Wu, Chun Yuan, Xuyuan Xu, Yexin Wang, Ying Shan

ICLR 2022 Uncertainty Modeling for Out-of-Distribution Generalization Xiaotong Li, Yongxing Dai, Yixiao Ge, Jun Liu, Ying Shan, Lingyu Duan

CVPR 2021 DivCo: Diverse Conditional Image Synthesis via Contrastive Generative Adversarial Network Rui Liu, Yixiao Ge, Ching Lam Choi, Xiaogang Wang, Hongsheng Li

CVPR 2021 Mutual CRF-GNN for Few-Shot Learning Shixiang Tang, Dapeng Chen, Lei Bai, Kaijian Liu, Yixiao Ge, Wanli Ouyang

ICCV 2021 Online Pseudo Label Generation by Hierarchical Cluster Dynamics for Adaptive Person Re-Identification Yi Zheng, Shixiang Tang, Guolong Teng, Yixiao Ge, Kaijian Liu, Jing Qin, Donglian Qi, Dapeng Chen

ICCV 2021 Progressive Correspondence Pruning by Consensus Learning Chen Zhao, Yixiao Ge, Feng Zhu, Rui Zhao, Hongsheng Li, Mathieu Salzmann

CVPR 2021 Refining Pseudo Labels with Clustering Consensus over Generations for Unsupervised Object Re-Identification Xiao Zhang, Yixiao Ge, Yu Qiao, Hongsheng Li

ICLR 2020 Mutual Mean-Teaching: Pseudo Label Refinery for Unsupervised Domain Adaptation on Person Re-Identification Yixiao Ge, Dapeng Chen, Hongsheng Li

NeurIPS 2020 Self-Paced Contrastive Learning with Hybrid Memory for Domain Adaptive Object Re-ID Yixiao Ge, Feng Zhu, Dapeng Chen, Rui Zhao, Hongsheng Li

ECCV 2020 Self-Supervising Fine-Grained Region Similarities for Large-Scale Image Localization Yixiao Ge, Haibo Wang, Feng Zhu, Rui Zhao, Hongsheng Li

NeurIPS 2018 FD-GAN: Pose-Guided Feature Distilling GAN for Robust Person Re-Identification Yixiao Ge, Zhuowan Li, Haiyu Zhao, Guojun Yin, Shuai Yi, Xiaogang Wang, Hongsheng Li