Xie, Hongtao

53 publications

NeurIPS 2025 CAPability: A Comprehensive Visual Caption Benchmark for Evaluating Both Correctness and Thoroughness Zhihang Liu, Chen-Wei Xie, Bin Wen, Feiwu Yu, JixuanChen, Pandeng Li, Boqiang Zhang, Nianzu Yang, YingluLi, Zuan Gao, Yun Zheng, Hongtao Xie

ICCV 2025 CLIP-Adapted Region-to-Text Learning for Generative Open-Vocabulary Semantic Segmentation Jiannan Ge, Lingxi Xie, Hongtao Xie, Pandeng Li, Sun-Ao Liu, Xiaopeng Zhang, Qi Tian, Yongdong Zhang

ICCV 2025 Forensic-MoE: Exploring Comprehensive Synthetic Image Detection Traces with Mixture of Experts Mingqi Fang, Ziguang Li, Lingyun Yu, Quanwei Yang, Hongtao Xie, Yongdong Zhang

NeurIPS 2025 GRIP: A Graph-Based Reasoning Instruction Producer Jiankang Wang, Jianjun Xu, Xiaorui Wang, Yuxin Wang, Mengting Xing, Shancheng Fang, Hongtao Xie

ICCV 2025 GestureHYDRA: Semantic Co-Speech Gesture Synthesis via Hybrid Modality Diffusion Transformer and Cascaded-Synchronized Retrieval-Augmented Generation Quanwei Yang, Luying Huang, Kaisiyuan Wang, Jiazhi Guan, Shengyi He, Fengguo Li, Hang Zhou, Lingyun Yu, Yingying Li, Haocheng Feng, Hongtao Xie

CVPR 2025 Hybrid-Level Instruction Injection for Video Token Compression in Multi-Modal Large Language Models Zhihang Liu, Chen-Wei Xie, Pandeng Li, Liming Zhao, Longxiang Tang, Yun Zheng, Chuanbin Liu, Hongtao Xie

AAAI 2025 IDseq: Decoupled and Sequentially Detecting and Grounding Multi-Modal Media Manipulation Runxin Liu, Tian Xie, Jiaming Li, Lingyun Yu, Hongtao Xie

ICCV 2025 IGD: Instructional Graphic Design with Multimodal Layer Generation Yadong Qu, Shancheng Fang, Yuxin Wang, Xiaorui Wang, Zhineng Chen, Hongtao Xie, Yongdong Zhang

ICCV 2025 Invisible Watermarks, Visible Gains: Steering Machine Unlearning with Bi-Level Watermarking Design Yuhao Sun, Yihua Zhang, Gaowen Liu, Hongtao Xie, Sijia Liu

IJCAI 2025 IterMeme: Expert-Guided Multimodal LLM for Interactive Meme Creation with Layout-Aware Generation Yaqi Cai, Shancheng Fang, Yadong Qu, Xiaorui Wang, Meng Shao, Hongtao Xie

CVPR 2025 Mask^2DiT: Dual Mask-Based Diffusion Transformer for Multi-Scene Long Video Generation Tianhao Qi, Jianlong Yuan, Wanquan Feng, Shancheng Fang, Jiawei Liu, SiYu Zhou, Qian He, Hongtao Xie, Yongdong Zhang

CVPR 2025 PosterMaker: Towards High-Quality Product Poster Generation with Accurate Text Rendering Yifan Gao, Zihang Lin, Chuanbin Liu, Min Zhou, Tiezheng Ge, Bo Zheng, Hongtao Xie

ICCV 2025 SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition Yongkun Du, Zhineng Chen, Hongtao Xie, Caiyan Jia, Yu-Gang Jiang

CVPR 2025 SynTab-LLaVA: Enhancing Multimodal Table Understanding with Decoupled Synthesis Bangbang Zhou, Zuan Gao, Zixiao Wang, Boqiang Zhang, Yuxin Wang, Zhineng Chen, Hongtao Xie

ECCV 2024 AlignZeg: Mitigating Objective Misalignment for Zero-Shot Semantic Segmentation Jiannan Ge, Lingxi Xie, Hongtao Xie, Pandeng Li, Xiaopeng Zhang, Yongdong Zhang, Qi Tian

NeurIPS 2024 Boosting Semi-Supervised Scene Text Recognition via Viewing and Summarizing Yadong Qu, Yuxin Wang, Bangbang Zhou, Zixiao Wang, Hongtao Xie, Yongdong Zhang

CVPR 2024 Choose What You Need: Disentangled Representation Learning for Scene Text Recognition Removal and Editing Boqiang Zhang, Hongtao Xie, Zuan Gao, Yuxin Wang

CVPR 2024 DEADiff: An Efficient Stylization Diffusion Model with Disentangled Representations Tianhao Qi, Shancheng Fang, Yanze Wu, Hongtao Xie, Jiawei Liu, Lang Chen, Qian He, Yongdong Zhang

CVPR 2024 DiffAM: Diffusion-Based Adversarial Makeup Transfer for Facial Privacy Protection Yuhao Sun, Lingyun Yu, Hongtao Xie, Jiaming Li, Yongdong Zhang

IJCAI 2024 Focus on the Whole Character: Discriminative Character Modeling for Scene Text Recognition Bangbang Zhou, Yadong Qu, Zixiao Wang, Zicheng Li, Boqiang Zhang, Hongtao Xie

NeurIPS 2024 How Control Information Influences Multilingual Text Image Generation and Editing? Boqiang Zhang, Zuan Gao, Yadong Qu, Hongtao Xie

ECCV 2024 Leveraging Text Localization for Scene Text Removal via Text-Aware Masked Image Modeling Zixiao Wang, Hongtao Xie, YuXin Wang, Yadong Qu, Fengjun Guo, Pengwei Liu

CVPR 2024 OTE: Exploring Accurate Scene Text Recognition Using One Token Jianjun Xu, Yuxin Wang, Hongtao Xie, Yongdong Zhang

IJCAI 2024 Self-Supervised Pre-Training with Symmetric Superimposition Modeling for Scene Text Recognition Zuan Gao, Yuxin Wang, Yadong Qu, Boqiang Zhang, Zixiao Wang, Jianjun Xu, Hongtao Xie

NeurIPS 2024 ShowMaker: Creating High-Fidelity 2D Human Video via Fine-Grained Diffusion Modeling Quanwei Yang, Jiazhi Guan, Kaisiyuan Wang, Lingyun Yu, Wenqing Chu, Hang Zhou, Zhiqiang Feng, Haocheng Feng, Errui Ding, Jingdong Wang, Hongtao Xie

AAAI 2024 Towards Balanced Alignment: Modal-Enhanced Semantic Modeling for Video Moment Retrieval Zhihang Liu, Jun Li, Hongtao Xie, Pandeng Li, Jiannan Ge, Sun'ao Liu, Guoqing Jin

AAAI 2023 Exploring Stroke-Level Modifications for Scene Text Editing Yadong Qu, Qingfeng Tan, Hongtao Xie, Jianjun Xu, YuXin Wang, Yongdong Zhang

CVPR 2023 Learning Orthogonal Prototypes for Generalized Few-Shot Semantic Segmentation Sun-Ao Liu, Yiheng Zhang, Zhaofan Qiu, Hongtao Xie, Yongdong Zhang, Ting Yao

IJCAI 2023 Linguistic More: Taking a Further Step Toward Efficient and Accurate Scene Text Recognition Boqiang Zhang, Hongtao Xie, Yuxin Wang, Jianjun Xu, Yongdong Zhang

NeurIPS 2023 MomentDiff: Generative Video Moment Retrieval from Random to Real Pandeng Li, Chen-Wei Xie, Hongtao Xie, Liming Zhao, Lei Zhang, Yun Zheng, Deli Zhao, Yongdong Zhang

ICCV 2023 Progressive Spatio-Temporal Prototype Matching for Text-Video Retrieval Pandeng Li, Chen-Wei Xie, Liming Zhao, Hongtao Xie, Jiannan Ge, Yun Zheng, Deli Zhao, Yongdong Zhang

IJCAI 2023 TPS++: Attention-Enhanced Thin-Plate Spline for Scene Text Recognition Tianlun Zheng, Zhineng Chen, Jinfeng Bai, Hongtao Xie, Yu-Gang Jiang

NeurIPS 2022 Bridging the Gap Between Vision Transformers and Convolutional Neural Networks on Small Datasets Zhiying Lu, Hongtao Xie, Chuanbin Liu, Yongdong Zhang

ECCV 2022 Detecting Tampered Scene Text in the Wild Yuxin Wang, Hongtao Xie, Mengting Xing, Jing Wang, Shenggao Zhu, Yongdong Zhang

ECCV 2022 Dual-Stream Knowledge-Preserving Hashing for Unsupervised Video Retrieval Pandeng Li, Hongtao Xie, Jiannan Ge, Lei Zhang, Shaobo Min, Yongdong Zhang

AAAI 2022 Neighborhood-Adaptive Structure Augmented Metric Learning Pandeng Li, Yan Li, Hongtao Xie, Lei Zhang

CVPR 2022 Partial Class Activation Attention for Semantic Segmentation Sun-Ao Liu, Hongtao Xie, Hai Xu, Yongdong Zhang, Qi Tian

IJCAI 2021 Dynamic Inconsistency-Aware DeepFake Video Detection Ziheng Hu, Hongtao Xie, Yuxin Wang, Jiahong Li, Zhongyuan Wang, Yongdong Zhang

CVPR 2021 Frequency-Aware Discriminative Feature Learning Supervised by Single-Center Loss for Face Forgery Detection Jiaming Li, Hongtao Xie, Jiahong Li, Zhongyuan Wang, Yongdong Zhang

ICCV 2021 From Two to One: A New Scene Text Recognizer with Visual Language Modeling Network Yuxin Wang, Hongtao Xie, Shancheng Fang, Jing Wang, Shenggao Zhu, Yongdong Zhang

AAAI 2021 Query-Memory Re-Aggregation for Weakly-Supervised Video Object Segmentation Fanchao Lin, Hongtao Xie, Yan Li, Yongdong Zhang

CVPR 2021 Read like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition Shancheng Fang, Hongtao Xie, Yuxin Wang, Zhendong Mao, Yongdong Zhang

AAAI 2021 Semantic-Guided Reinforced Region Embedding for Generalized Zero-Shot Learning Jiannan Ge, Hongtao Xie, Shaobo Min, Yongdong Zhang

AAAI 2020 CircleNet for Hip Landmark Detection Hai Wu, Hongtao Xie, Chuanbin Liu, Zheng-Jun Zha, Jun Sun, Yongdong Zhang

AAAI 2020 Filtration and Distillation: Enhancing Region Attention for Fine-Grained Visual Categorization Chuanbin Liu, Hongtao Xie, Zheng-Jun Zha, Lingfeng Ma, Lingyun Yu, Yongdong Zhang

NeurIPS 2020 Hierarchical Granularity Transfer Learning Shaobo Min, Hongtao Xie, Hantao Yao, Xuran Deng, Zheng-Jun Zha, Yongdong Zhang

IJCAI 2020 Real-World Automatic Makeup via Identity Preservation Makeup Net Zhikun Huang, Zhedong Zheng, Chenggang Yan, Hongtao Xie, Yaoqi Sun, Jianzhong Wang, Jiyong Zhang

IJCAI 2019 DSRN: A Deep Scale Relationship Network for Scene Text Detection Yuxin Wang, Hongtao Xie, Zilong Fu, Yongdong Zhang

IJCAI 2019 Learning to Draw Text in Natural Images with Conditional Adversarial Networks Shancheng Fang, Hongtao Xie, Jianjun Chen, Jianlong Tan, Yongdong Zhang

AAAI 2019 Robust Deep Co-Saliency Detection with Group Semantic Chong Wang, Zheng-Jun Zha, Dong Liu, Hongtao Xie

IJCAI 2019 Semi-Supervised User Profiling with Heterogeneous Graph Attention Networks Weijian Chen, Yulong Gu, Zhaochun Ren, Xiangnan He, Hongtao Xie, Tong Guo, Dawei Yin, Yongdong Zhang

ECCV 2010 Effective and Efficient Image Copy Detection Based on GPU Hongtao Xie, Ke Gao, Yongdong Zhang, Jintao Li, Yizhi Liu, Huamin Ren

ECCVW 2010 Effective and Efficient Image Copy Detection Based on GPU Hongtao Xie, Ke Gao, Yongdong Zhang, Jintao Li, Yizhi Liu, Huamin Ren