Zhang, Songyang

36 publications

AAAI 2025 DualGFL: Federated Learning with a Dual-Level Coalition-Auction Game Xiaobing Chen, Xiangwei Zhou, Songyang Zhang, Mingxuan Sun

ICCV 2025 LiT: Delving into a Simple Linear Diffusion Transformer for Image Generation Jiahao Wang, Ning Kang, Lewei Yao, Mengzhao Chen, Chengyue Wu, Songyang Zhang, Shuchen Xue, Yong Liu, Taiqiang Wu, Xihui Liu, Kaipeng Zhang, Shifeng Zhang, Wenqi Shao, Zhenguo Li, Ping Luo

TMLR 2025 NeedleBench: Evaluating LLM Retrieval and Reasoning Across Varying Information Densities Mo Li, Songyang Zhang, Taolin Zhang, Haodong Duan, Yunxin Liu, Kai Chen

NeurIPS 2025 Rethinking Verification for LLM Code Generation: From Generation to Testing Zihan Ma, Taolin Zhang, Maosongcao, Junnan Liu, Wenwei Zhang, Minnan Luo, Songyang Zhang, Kai Chen

AAAI 2025 UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios Baichuan Zhou, Haote Yang, Dairong Chen, Junyan Ye, Tianyi Bai, Jinhua Yu, Songyang Zhang, Dahua Lin, Conghui He, Weijia Li

ICML 2024 FedSC: Provable Federated Self-Supervised Learning with Spectral Contrastive Objective over Non-I.i.d. Data Shusen Jing, Anlan Yu, Shuai Zhang, Songyang Zhang

CVPR 2024 From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models Rongjie Li, Songyang Zhang, Dahua Lin, Kai Chen, Xuming He

NeurIPS 2024 GTA: A Benchmark for General Tool Agents Jize Wang, Zerun Ma, Yining Li, Songyang Zhang, Cailian Chen, Kai Chen, Xinyi Le

NeurIPSW 2024 GTA: A Benchmark for General Tool Agents Jize Wang, Ma Zerun, Yining Li, Songyang Zhang, Cailian Chen, Kai Chen, Xinyi Le

NeurIPS 2024 InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4k HD Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Bin Wang, Linke Ouyang, Songyang Zhang, Haodong Duan, Wenwei Zhang, Yining Li, Hang Yan, Yang Gao, Zhe Chen, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Kai Chen, Conghui He, Xingcheng Zhang, Jifeng Dai, Yu Qiao, Dahua Lin, Jiaqi Wang

ECCV 2024 MMBENCH: Is Your Multi-Modal Model an All-Around Player? Yuan Liu, Haodong Duan, Yuanhan Zhang, Bo Li, Songyang Zhang, Wangbo Zhao, Yike Yuan, Jiaqi Wang, Conghui He, Ziwei Liu, Kai Chen, Dahua Lin

TMLR 2024 PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling Yuan Liu, Songyang Zhang, Jiacheng Chen, Kai Chen, Dahua Lin

NeurIPS 2024 Prism: A Framework for Decoupling and Assessing the Capabilities of VLMs Yuxuan Qiao, Haodong Duan, Xinyu Fang, Junming Yang, Lin Chen, Songyang Zhang, Jiaqi Wang, Dahua Lin, Kai Chen

ICCV 2023 Improving Pixel-Based MIM by Reducing Wasted Modeling Capability Yuan Liu, Songyang Zhang, Jiacheng Chen, Zhaohui Yu, Kai Chen, Dahua Lin

ICLR 2023 Make-a-Video: Text-to-Video Generation Without Text-Video Data Uriel Singer, Adam Polyak, Thomas Hayes, Xi Yin, Jie An, Songyang Zhang, Qiyuan Hu, Harry Yang, Oron Ashual, Oran Gafni, Devi Parikh, Sonal Gupta, Yaniv Taigman

CVPR 2023 RIFormer: Keep Your Vision Backbone Effective but Removing Token Mixer Jiahao Wang, Songyang Zhang, Yong Liu, Taiqiang Wu, Yujiu Yang, Xihui Liu, Kai Chen, Ping Luo, Dahua Lin

IJCAI 2023 TG-VQA: Ternary Game of Video Question Answering Hao Li, Peng Jin, Zesen Cheng, Songyang Zhang, Kai Chen, Zhennan Wang, Chang Liu, Jie Chen

ECCV 2022 Action Quality Assessment with Temporal Parsing Transformer Yang Bai, Desen Zhou, Songyang Zhang, Jian Wang, Errui Ding, Yu Guan, Yang Long, Jingdong Wang

ECCV 2022 Expanding Language-Image Pretrained Models for General Video Recognition Bolin Ni, Houwen Peng, Minghao Chen, Songyang Zhang, Gaofeng Meng, Jianlong Fu, Shiming Xiang, Haibin Ling

ECCV 2022 Learning Semantic Correspondence with Sparse Annotations Shuaiyi Huang, Luyu Yang, Bo He, Songyang Zhang, Xuming He, Abhinav Shrivastava

ECCV 2022 MUGEN: A Playground for Video-Audio-Text Multimodal Understanding and GENeration Thomas Hayes, Songyang Zhang, Xi Yin, Guan Pang, Sasha Sheng, Harry Yang, Songwei Ge, Qiyuan Hu, Devi Parikh

CVPR 2022 SGTR: End-to-End Scene Graph Generation with Transformer Rongjie Li, Songyang Zhang, Xuming He

CVPR 2022 The Devil Is in the Labels: Noisy Label Correction for Robust Scene Graph Generation Lin Li, Long Chen, Yifeng Huang, Zhimeng Zhang, Songyang Zhang, Jun Xiao

CVPR 2021 Bipartite Graph Network with Adaptive Message Passing for Unbiased Scene Graph Generation Rongjie Li, Songyang Zhang, Bo Wan, Xuming He

AAAI 2021 Boundary Proposal Network for Two-Stage Natural Language Video Localization Shaoning Xiao, Long Chen, Songyang Zhang, Wei Ji, Jian Shao, Lu Ye, Jun Xiao

CVPR 2021 Distribution Alignment: A Unified Framework for Long-Tail Visual Recognition Songyang Zhang, Zeming Li, Shipeng Yan, Xuming He, Jian Sun

NeurIPS 2021 Dynamic Grained Encoder for Vision Transformers Lin Song, Songyang Zhang, Songtao Liu, Zeming Li, Xuming He, Hongbin Sun, Jian Sun, Nanning Zheng

IJCAI 2021 Learning Implicit Temporal Alignment for Few-Shot Video Classification Songyang Zhang, Jiale Zhou, Xuming He

ICCV 2021 SAT: 2D Semantics Assisted Training for 3D Visual Grounding Zhengyuan Yang, Songyang Zhang, Liwei Wang, Jiebo Luo

AAAI 2020 Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language Songyang Zhang, Houwen Peng, Jianlong Fu, Jiebo Luo

ECCV 2020 Part-Aware Prototype Network for Few-Shot Semantic Segmentation Yongfei Liu, Xiangyi Zhang, Songyang Zhang, Xuming He

AAAI 2019 A Dual Attention Network with Semantic Embedding for Few-Shot Learning Shipeng Yan, Songyang Zhang, Xuming He

CVPRW 2019 A Dual Attention Network with Semantic Embedding for Few-Shot Learning Shipeng Yan, Songyang Zhang, Xuming He

ICML 2019 LatentGNN: Learning Efficient Non-Local Relations for Visual Recognition Songyang Zhang, Xuming He, Shipeng Yan

WACV 2017 On Geometric Features for Skeleton-Based Action Recognition Using Multilayer LSTM Networks Songyang Zhang, Xiaoming Liu, Jun Xiao

CVPR 2017 Predicting Salient Face in Multiple-Face Videos Yufan Liu, Songyang Zhang, Mai Xu, Xuming He