Chen, Xinlei

48 publications

ICLRW 2025 A Large Language Model-Driven Heterogeneous Air-Ground Search Swarm Jianzhuozhu, Xuran Pu, Jianjie Fang, Zhiyuan Deng, Xueqian Wang, Xinlei Chen

ICLR 2025 An Image Is Worth More than 16x16 Patches: Exploring Transformers on Individual Pixels Duy Kien Nguyen, Mido Assran, Unnat Jain, Martin R. Oswald, Cees G. M. Snoek, Xinlei Chen

NeurIPS 2025 Balanced Token Pruning: Accelerating Vision Language Models Beyond Local Optimization Kaiyuan Li, Xiaoyue Chen, Chen Gao, Yong Li, Xinlei Chen

ICLR 2025 Deconstructing Denoising Diffusion Models for Self-Supervised Learning Xinlei Chen, Zhuang Liu, Saining Xie, Kaiming He

ICML 2025 Highly Compressed Tokenizer Can Generate Without Training Lukas Lao Beyer, Tianhong Li, Xinlei Chen, Sertac Karaman, Kaiming He

IJCAI 2025 How to Enable LLM with 3D Capacity? a Survey of Spatial Reasoning in LLM Jirong Zha, Yuxuan Fan, Xiao Yang, Chen Gao, Xinlei Chen

ICML 2025 LLMs Can See and Hear Without Any Training Kumar Ashutosh, Yossi Gandelsman, Xinlei Chen, Ishan Misra, Rohit Girdhar

ICML 2025 Learning to (Learn at Test Time): RNNs with Expressive Hidden States Yu Sun, Xinhao Li, Karan Dalal, Jiarui Xu, Arjun Vikram, Genghan Zhang, Yann Dubois, Xinlei Chen, Xiaolong Wang, Sanmi Koyejo, Tatsunori Hashimoto, Carlos Guestrin

ICML 2025 Learnings from Scaling Visual Tokenizers for Reconstruction and Generation Philippe Hansen-Estruch, David Yan, Ching-Yao Chuang, Orr Zohar, Jialiang Wang, Tingbo Hou, Tao Xu, Sriram Vishwanath, Peter Vajda, Xinlei Chen

NeurIPS 2025 Meta CLIP 2: A Worldwide Scaling Recipe Yung-Sung Chuang, Yang Li, Dong Wang, Ching-Feng Yeh, Kehan Lyu, Ramya Raghavendra, James R. Glass, Lifei Huang, Jason E Weston, Luke Zettlemoyer, Xinlei Chen, Zhuang Liu, Saining Xie, Wen-tau Yih, Shang-Wen Li, Hu Xu

ICCV 2025 MetaMorph: Multimodal Understanding and Generation via Instruction Tuning Shengbang Tong, David Fan, Jiachen Li, Yunyang Xiong, Xinlei Chen, Koustuv Sinha, Michael Rabbat, Yann LeCun, Saining Xie, Zhuang Liu

ICCV 2025 PRE-Mamba: A 4D State Space Model for Ultra-High-Frequent Event Camera Deraining Ciyu Ruan, Ruishan Guo, Zihang Gong, Jingao Xu, Wenhan Yang, Xinlei Chen

ICCV 2025 Scaling Language-Free Visual Representation Learning David Fan, Shengbang Tong, Jiachen Zhu, Koustuv Sinha, Zhuang Liu, Xinlei Chen, Michael Rabbat, Nicolas Ballas, Yann LeCun, Amir Bar, Saining Xie

JMLR 2025 Test-Time Training on Video Streams Renhao Wang, Yu Sun, Arnuv Tandon, Yossi Gandelsman, Xinlei Chen, Alexei A. Efros, Xiaolong Wang

CVPR 2025 Transformers Without Normalization Jiachen Zhu, Xinlei Chen, Kaiming He, Yann LeCun, Zhuang Liu

NeurIPS 2025 VolleyBots: A Testbed for Multi-Drone Volleyball Game Combining Motion Control and Strategic Play Zelai Xu, Ruize Zhang, Chao Yu, Huining Yuan, Xiangmin Yi, Shilong Ji, Chuqi Wang, Wenhao Tang, Feng Gao, Wenbo Ding, Xinlei Chen, Yu Wang

NeurIPS 2025 What Can RL Bring to VLA Generalization? an Empirical Study Jijia Liu, Feng Gao, Bingwen Wei, Xinlei Chen, Qingmin Liao, Yi Wu, Chao Yu, Yu Wang

ICLRW 2024 Massive Activations in Large Language Models Mingjie Sun, Xinlei Chen, J Zico Kolter, Zhuang Liu

NeurIPS 2024 On the Surprising Effectiveness of Attention Transfer for Vision Transformers Alexander C. Li, Yuandong Tian, Beidi Chen, Deepak Pathak, Xinlei Chen

ICLR 2024 R-MAE: Regions Meet Masked Autoencoders Duy Kien Nguyen, Yanghao Li, Vaibhav Aggarwal, Martin R. Oswald, Alexander Kirillov, Cees G. M. Snoek, Xinlei Chen

TMLR 2024 Revisiting Feature Prediction for Learning Visual Representations from Video Adrien Bardes, Quentin Garrido, Jean Ponce, Xinlei Chen, Michael Rabbat, Yann LeCun, Mido Assran, Nicolas Ballas

NeurIPS 2024 Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-Trained Transformers Lirui Wang, Xinlei Chen, Jialiang Zhao, Kaiming He

CVPR 2023 ConvNeXt V2: Co-Designing and Scaling ConvNets with Masked Autoencoders Sanghyun Woo, Shoubhik Debnath, Ronghang Hu, Xinlei Chen, Zhuang Liu, In So Kweon, Saining Xie

ICLRW 2023 EurNet: Efficient Multi-Range Relational Modeling of Protein Structure Minghao Xu, Yuanfan Guo, Yi Xu, Jian Tang, Xinlei Chen, Yuandong Tian

CVPR 2023 Improving Selective Visual Question Answering by Learning from Your Peers Corentin Dancette, Spencer Whitehead, Rishabh Maheshwary, Ramakrishna Vedantam, Stefan Scherer, Xinlei Chen, Matthieu Cord, Marcus Rohrbach

ICCV 2023 UniT3D: A Unified Transformer for 3D Dense Captioning and Visual Grounding Zhenyu Chen, Ronghang Hu, Xinlei Chen, Matthias Nießner, Angel X. Chang

CVPR 2022 Masked Autoencoders Are Scalable Vision Learners Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollár, Ross Girshick

ICLR 2022 NASViT: Neural Architecture Search for Efficient Vision Transformers with Gradient Conflict Aware Supernet Training Chengyue Gong, Dilin Wang, Meng Li, Xinlei Chen, Zhicheng Yan, Yuandong Tian, Qiang Liu, Vikas Chandra

CVPR 2022 On the Importance of Asymmetry for Siamese Representation Learning Xiao Wang, Haoqi Fan, Yuandong Tian, Daisuke Kihara, Xinlei Chen

CVPR 2022 Point-Level Region Contrast for Object Detection Pre-Training Yutong Bai, Xinlei Chen, Alexander Kirillov, Alan Yuille, Alexander C. Berg

NeurIPS 2022 Test-Time Training with Masked Autoencoders Yossi Gandelsman, Yu Sun, Xinlei Chen, Alexei Efros

ICCV 2021 An Empirical Study of Training Self-Supervised Vision Transformers Xinlei Chen, Saining Xie, Kaiming He

CVPR 2021 Exploring Simple Siamese Representation Learning Xinlei Chen, Kaiming He

CVPR 2021 KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain Knowledge-Based VQA Kenneth Marino, Xinlei Chen, Devi Parikh, Abhinav Gupta, Marcus Rohrbach

ICLR 2021 MoVie: Revisiting Modulated Convolutions for Visual Counting and Beyond Duy Kien Nguyen, Vedanuj Goswami, Xinlei Chen

ICML 2021 Understanding Self-Supervised Learning Dynamics Without Contrastive Pairs Yuandong Tian, Xinlei Chen, Surya Ganguli

ECCV 2020 Seeing the Un-Scene: Learning Amodal Semantic Maps for Room Navigation Medhini Narasimhan, Erik Wijmans, Xinlei Chen, Trevor Darrell, Dhruv Batra, Devi Parikh, Amanpreet Singh

CVPRW 2019 Grounded Video Description Luowei Zhou, Yannis Kalantidis, Xinlei Chen, Jason J. Corso, Marcus Rohrbach

ICCV 2017 Spatial Memory for Context Reasoning in Object Detection Xinlei Chen, Abhinav Gupta

ECCV 2016 Learning Visual Storylines with Skipping Recurrent Neural Networks Gunnar A. Sigurdsson, Xinlei Chen, Abhinav Gupta

CVPR 2015 Mind's Eye: A Recurrent Visual Representation for Image Caption Generation Xinlei Chen, C. Lawrence Zitnick

AAAI 2015 Never-Ending Learning Tom M. Mitchell, William W. Cohen, Estevam R. Hruschka Jr., Partha Pratim Talukdar, Justin Betteridge, Andrew Carlson, Bhavana Dalvi Mishra, Matthew Gardner, Bryan Kisiel, Jayant Krishnamurthy, Ni Lao, Kathryn Mazaitis, Thahir Mohamed, Ndapandula Nakashole, Emmanouil A. Platanios, Alan Ritter, Mehdi Samadi, Burr Settles, Richard C. Wang, Derry Wijaya, Abhinav Gupta, Xinlei Chen, Abulhair Saparov, Malcolm Greaves, Joel Welling

CVPR 2015 Sense Discovery via Co-Clustering on Images and Text Xinlei Chen, Alan Ritter, Abhinav Gupta, Tom Mitchell

ICCV 2015 Webly Supervised Learning of Convolutional Networks Xinlei Chen, Abhinav Gupta

CVPR 2014 Enriching Visual Knowledge Bases via Object Discovery and Segmentation Xinlei Chen, Abhinav Shrivastava, Abhinav Gupta

ICCV 2013 NEIL: Extracting Visual Knowledge from Web Data Xinlei Chen, Abhinav Shrivastava, Abhinav Gupta

CVPR 2012 Metric Learning with Two-Dimensional Smoothness for Visual Analysis Xinlei Chen, Zifei Tong, Haifeng Liu, Deng Cai

AAAI 2011 Large Scale Spectral Clustering with Landmark-Based Representation Xinlei Chen, Deng Cai