Zheng, Yun

22 publications

ICLR 2025 Aligned Better, Listen Better for Audio-Visual Large Language Models Yuxin Guo, Shuailei Ma, Shijie Ma, Xiaoyi Bao, Chen-Wei Xie, Kecheng Zheng, Tingyu Weng, Siyang Sun, Yun Zheng, Wei Zou

NeurIPS 2025 CAPability: A Comprehensive Visual Caption Benchmark for Evaluating Both Correctness and Thoroughness Zhihang Liu, Chen-Wei Xie, Bin Wen, Feiwu Yu, JixuanChen, Pandeng Li, Boqiang Zhang, Nianzu Yang, YingluLi, Zuan Gao, Yun Zheng, Hongtao Xie

AAAI 2025 ContextHOI: Spatial Context Learning for Human-Object Interaction Detection Mingda Jia, Liming Zhao, Ge Li, Yun Zheng

ICCV 2025 DynImg: Key Frames with Visual Prompts Are Good Representation for Multi-Modal Video Understanding Xiaoyi Bao, Chenwei Xie, Hao Tang, Tingyu Weng, Xiaofeng Wang, Yun Zheng, Xingang Wang

CVPR 2025 Hybrid-Level Instruction Injection for Video Token Compression in Multi-Modal Large Language Models Zhihang Liu, Chen-Wei Xie, Pandeng Li, Liming Zhao, Longxiang Tang, Yun Zheng, Chuanbin Liu, Hongtao Xie

AAAI 2025 Orchestrating the Symphony of Prompt Distribution Learning for Human-Object Interaction Detection Mingda Jia, Liming Zhao, Ge Li, Yun Zheng

NeurIPS 2025 UFO: A Unified Approach to Fine-Grained Visual Perception via Open-Ended Language Interface Hao Tang, Chen-Wei Xie, Haiyang Wang, Xiaoyi Bao, Tingyu Weng, Pandeng Li, Yun Zheng, Liwei Wang

ECCV 2024 CoReS: Orchestrating the Dance of Reasoning and Segmentation Xiaoyi Bao, Siyang Sun, Shuailei Ma, Kecheng Zheng, Yuxin Guo, Guosheng Zhao, Yun Zheng, Xingang Wang

CVPR 2024 CrossMAE: Cross-Modality Masked Autoencoders for Region-Aware Audio-Visual Pre-Training Yuxin Guo, Siyang Sun, Shuailei Ma, Kecheng Zheng, Xiaoyi Bao, Shijie Ma, Wei Zou, Yun Zheng

ECCV 2024 FuseTeacher: Modality-Fused Encoders Are Strong Vision Supervisors Chen-Wei Xie, Siyang Sun, Liming Zhao, Pandeng Li, Shuailei Ma, Yun Zheng

AAAI 2024 Relevant Intrinsic Feature Enhancement Network for Few-Shot Semantic Segmentation Xiaoyi Bao, Jie Qin, Siyang Sun, Xingang Wang, Yun Zheng

NeurIPS 2023 Dual Mean-Teacher: An Unbiased Semi-Supervised Framework for Audio-Visual Source Localization Yuxin Guo, Shijie Ma, Hu Su, Zhiqing Wang, Yuhao Zhao, Wei Zou, Siyang Sun, Yun Zheng

NeurIPS 2023 MomentDiff: Generative Video Moment Retrieval from Random to Real Pandeng Li, Chen-Wei Xie, Hongtao Xie, Liming Zhao, Lei Zhang, Yun Zheng, Deli Zhao, Yongdong Zhang

ICCV 2023 Progressive Spatio-Temporal Prototype Matching for Text-Video Retrieval Pandeng Li, Chen-Wei Xie, Liming Zhao, Hongtao Xie, Jiannan Ge, Yun Zheng, Deli Zhao, Yongdong Zhang

CVPR 2023 RA-CLIP: Retrieval Augmented Contrastive Language-Image Pre-Training Chen-Wei Xie, Siyang Sun, Xiong Xiong, Yun Zheng, Deli Zhao, Jingren Zhou

ICML 2023 RLEG: Vision-Language Representation Learning with Diffusion-Based Embedding Generation Liming Zhao, Kecheng Zheng, Yun Zheng, Deli Zhao, Jingren Zhou

CVPR 2022 RCL: Recurrent Continuous Localization for Temporal Action Detection Qiang Wang, Yanhao Zhang, Yun Zheng, Pan Pan

AAAI 2021 Fashion Focus: Multi-Modal Retrieval System for Video Commodity Localization in E-Commerce Yanhao Zhang, Qiang Wang, Pan Pan, Yun Zheng, Cheng Da, Siyang Sun, Yinghui Xu

CVPR 2021 Few-Shot Incremental Learning with Continually Evolved Classifiers Chi Zhang, Nan Song, Guosheng Lin, Yun Zheng, Pan Pan, Yinghui Xu

CVPR 2021 Multiple Object Tracking with Correlation Learning Qiang Wang, Yun Zheng, Pan Pan, Yinghui Xu

ECCV 2020 Weakly Supervised Learning with Side Information for Noisy Labeled Images Lele Cheng, Xiangzeng Zhou, Liming Zhao, Dangwei Li, Hong Shang, Yun Zheng, Pan Pan, Yinghui Xu

CVPR 2012 MAP-MRF Inference Based on Extended Junction Tree Representation Yun Zheng, Pei Chen, Jiang-Zhong Cao