Jin, Qin

28 publications

ICLR 2025 Do Egocentric Video-Language Models Truly Understand Hand-Object Interactions? Boshen Xu, Ziheng Wang, Yang Du, Zhinan Song, Sipeng Zheng, Qin Jin

NeurIPS 2025 EgoDTM: Towards 3D-Aware Egocentric Video-Language Pretraining Boshen Xu, Yuting Mei, Liu Xinbi, Sipeng Zheng, Qin Jin

ICCV 2025 MotionCtrl: A Real-Time Controllable Vision-Language-Motion Model Bin Cao, Sipeng Zheng, Ye Wang, Lujie Xia, Qianshan Wei, Qin Jin, Jing Liu, Zongqing Lu

ICML 2025 Scaling Large Motion Models with Million-Level Human Motions Ye Wang, Sipeng Zheng, Bin Cao, Qianshan Wei, Weishuai Zeng, Qin Jin, Zongqing Lu

NeurIPS 2025 Time-R1: Post-Training Large Vision Language Model for Temporal Video Grounding Ye Wang, Ziheng Wang, Boshen Xu, Yang Du, Kejun Lin, Zihan Xiao, Zihao Yue, Jianzhong Ju, Liang Zhang, Dingyi Yang, Xiangnan Fang, Zewen He, Zhenbo Luo, Wenxuan Wang, Junqi Lin, Jian Luan, Qin Jin

NeurIPS 2025 WritingBench: A Comprehensive Benchmark for Generative Writing Yuning Wu, Jiahao Mei, Ming Yan, Chenliang Li, Shaopeng Lai, Yuran Ren, Wang Zijia, Ji Zhang, Mengyue Wu, Qin Jin, Fei Huang

IJCAI 2024 ECR-Chain: Advancing Generative Language Models to Better Emotion-Cause Reasoners Through Reasoning Chains Zhaopei Huang, Jinming Zhao, Qin Jin

ECCVW 2024 Unveiling Visual Biases in Audio-Visual Localization Benchmarks Liangyu Chen, Zihao Yue, Boshen Xu, Qin Jin

AAAI 2023 Accommodating Audio Modality in CLIP for Multimodal Processing Ludan Ruan, Anwen Hu, Yuqing Song, Liang Zhang, Sipeng Zheng, Qin Jin

ICCV 2023 Explore and Tell: Embodied Visual Captioning in 3D Environments Anwen Hu, Shizhe Chen, Liang Zhang, Qin Jin

NeurIPS 2023 Learning Descriptive Image Captioning via Semipermeable Maximum Likelihood Estimation Zihao Yue, Anwen Hu, Liang Zhang, Qin Jin

CVPR 2023 MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation Ludan Ruan, Yiyang Ma, Huan Yang, Huiguo He, Bei Liu, Jianlong Fu, Nicholas Jing Yuan, Qin Jin, Baining Guo

AAAI 2023 MPMQA: Multimodal Question Answering on Product Manuals Liang Zhang, Anwen Hu, Jing Zhang, Shuo Hu, Qin Jin

AAAI 2023 Multi-Modal Knowledge Hypergraph for Diverse Image Retrieval Yawen Zeng, Qin Jin, Tengfei Bao, Wenfeng Li

CVPR 2023 Open-Category Human-Object Interaction Pre-Training via Language Modeling Framework Sipeng Zheng, Boshen Xu, Qin Jin

AAAI 2023 Token Mixing: Parameter-Efficient Transfer Learning from Image-Language to Video-Language Yuqi Liu, Luhui Xu, Pengfei Xiong, Qin Jin

ECCV 2022 Few-Shot Action Recognition with Hierarchical Matching and Contrastive Learning Sipeng Zheng, Shizhe Chen, Qin Jin

AAAI 2022 Image Difference Captioning with Pre-Training and Contrastive Learning Linli Yao, Weiying Wang, Qin Jin

NeurIPS 2022 Multi-Lingual Acquisition on Multimodal Pre-Training for Cross-Modal Retrieval Liang Zhang, Anwen Hu, Qin Jin

ECCVW 2022 Multi-Task Learning Framework for Emotion Recognition In-the-Wild Tenggan Zhang, Chuanhe Liu, Xiaolong Liu, Yuchen Liu, Liyu Meng, Lei Sun, Wenqiang Jiang, Fengyuan Zhang, Jinming Zhao, Qin Jin

ECCV 2022 TS2-Net: Token Shift and Selection Transformer for Text-Video Retrieval Yuqi Liu, Pengfei Xiong, Luhui Xu, Shengming Cao, Qin Jin

ECCV 2022 Unifying Event Detection and Captioning as Sequence Generation via Pre-Training Qi Zhang, Yuqing Song, Qin Jin

CVPR 2022 VRDFormer: End-to-End Video Visual Relation Detection with Transformers Sipeng Zheng, Shizhe Chen, Qin Jin

CVPRW 2022 Valence and Arousal Estimation Based on Multimodal Temporal-Aware Features for Videos in the Wild Liyu Meng, Yuchen Liu, Xiaolong Liu, Zhaopei Huang, Wenqiang Jiang, Tenggan Zhang, Chuanhe Liu, Qin Jin

CVPR 2021 Towards Diverse Paragraph Captioning for Untrimmed Videos Yuqing Song, Shizhe Chen, Qin Jin

IJCAI 2019 From Words to Sentences: A Progressive Learning Approach for Zero-Resource Machine Translation with Visual Pivots Shizhe Chen, Qin Jin, Jianlong Fu

AAAI 2019 Unsupervised Bilingual Lexicon Induction from Mono-Lingual Multimodal Data Shizhe Chen, Qin Jin, Alexander G. Hauptmann

CVPR 2007 Multi-Modal Person Identification in a Smart Environment Hazim Kemal Ekenel, Mika Fischer, Qin Jin, Rainer Stiefelhagen