Huang, Zilong

26 publications

NeurIPS 2025 BLINK-Twice: You See, but Do You Observe? a Reasoning Benchmark on Visual Perception Junyan Ye, Dongzhi Jiang, Jun He, Baichuan Zhou, Zilong Huang, Zhiyuan Yan, Hongsheng Li, Conghui He, Weijia Li

CVPR 2025 DiG: Scalable and Efficient Diffusion Models with Gated Linear Attention Lianghui Zhu, Zilong Huang, Bencheng Liao, Jun Hao Liew, Hanshu Yan, Jiashi Feng, Xinggang Wang

ICCV 2025 GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation Tianwei Xiong, Jun Hao Liew, Zilong Huang, Jiashi Feng, Xihui Liu

ICLR 2025 LOKI: A Comprehensive Synthetic Data Detection Benchmark Using Large Multimodal Models Junyan Ye, Baichuan Zhou, Zilong Huang, Junan Zhang, Tianyi Bai, Hengrui Kang, Jun He, Honglin Lin, Zihao Wang, Tong Wu, Zhizheng Wu, Yiping Chen, Dahua Lin, Conghui He, Weijia Li

ICCV 2025 QK-Edit: Revisiting Attention-Based Injection in MM-DiT for Image and Video Editing Tiancheng Shen, Zilong Huang, Xiangtai Li, Zhijie Lin, Jiyang Liu, Yitong Wang, Jiashi Feng, Ming-Hsuan Yang, Jun Hao Liew

CVPR 2025 Scene4U: Hierarchical Layered 3D Scene Reconstruction from Single Panoramic Image for Your Immerse Exploration Zilong Huang, Jun He, Junyan Ye, Lihan Jiang, Weijia Li, Yiping Chen, Ting Han

NeurIPS 2025 SuperCLIP: CLIP with Simple Classification Supervision Weiheng Zhao, Zilong Huang, Jiashi Feng, Xinggang Wang

ICCV 2025 The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer Weixian Lei, Jiacong Wang, Haochen Wang, Xiangtai Li, Jun Hao Liew, Jiashi Feng, Zilong Huang

CVPR 2025 Video Depth Anything: Consistent Depth Estimation for Super-Long Videos Sili Chen, Hengkai Guo, Shengnan Zhu, Feihu Zhang, Zilong Huang, Jiashi Feng, Bingyi Kang

NeurIPS 2024 Classification Done Right for Vision-Language Pre-Training Zilong Huang, Qinghao Ye, Bingyi Kang, Jiashi Feng, Haoqi Fan

NeurIPS 2024 Depth Anything V2 Lihe Yang, Bingyi Kang, Zilong Huang, Zhen Zhao, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao

CVPR 2024 Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data Lihe Yang, Bingyi Kang, Zilong Huang, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao

WACV 2024 Disentangled Pre-Training for Image Matting Yanda Li, Zilong Huang, Gang Yu, Ling Chen, Yunchao Wei, Jianbo Jiao

CVPR 2023 Executing Your Commands via Motion Diffusion in Latent Space Xin Chen, Biao Jiang, Wen Liu, Zilong Huang, Bin Fu, Tao Chen, Gang Yu

ICCVW 2023 SeMask: Semantically Masked Transformers for Semantic Segmentation Jitesh Jain, Anukriti Singh, Nikita Orlov, Zilong Huang, Jiachen Li, Steven Walton, Humphrey Shi

ICLR 2023 SeaFormer: Squeeze-Enhanced Axial Transformer for Mobile Semantic Segmentation Qiang Wan, Zilong Huang, Jiachen Lu, Gang Yu, Li Zhang

NeurIPS 2022 Coordinates Are NOT Lonely - Codebook Prior Helps Implicit Neural 3D Representations Fukun Yin, Wen Liu, Zilong Huang, Pei Cheng, Tao Chen, Gang Yu

ECCVW 2022 Efficient Single-Image Depth Estimation on Mobile Devices, Mobile AI & AIM 2022 Challenge: Report Andrey Ignatov, Grigory Malivenko, Radu Timofte, Lukasz Treszczotko, Xin Chang, Piotr Ksiazek, Michal Lopuszynski, Maciej Pioro, Rafal Rudnicki, Maciej Smyl, Yujie Ma, Zhenyu Li, Zehui Chen, Jialei Xu, Xianming Liu, Junjun Jiang, XueChao Shi, Difan Xu, Yanan Li, Xiaotao Wang, Lei Lei, Ziyu Zhang, Yicheng Wang, Zilong Huang, Guozhong Luo, Gang Yu, Bin Fu, Jiaqi Li, Yiran Wang, Zihao Huang, Zhiguo Cao, Marcos V. Conde, Denis Sapozhnikov, Byeong Hyun Lee, Dongwon Park, Seongmin Hong, Joonhee Lee, Seunggyu Lee, Se Young Chun

CVPR 2022 TopFormer: Token Pyramid Transformer for Mobile Semantic Segmentation Wenqiang Zhang, Zilong Huang, Guozhong Luo, Tao Chen, Xinggang Wang, Wenyu Liu, Gang Yu, Chunhua Shen

CVPRW 2021 A Simple Baseline for Fast and Accurate Depth Estimation on Mobile Devices Ziyu Zhang, Yicheng Wang, Zilong Huang, Guozhong Luo, Gang Yu, Bin Fu

AAAI 2021 High-Resolution Deep Image Matting Haichao Yu, Ning Xu, Zilong Huang, Yuqian Zhou, Humphrey Shi

CVPR 2021 Human De-Occlusion: Invisible Perception and Recovery for Humans Qiang Zhou, Shiyin Wang, Yitong Wang, Zilong Huang, Xinggang Wang

CVPRW 2020 The 1st Agriculture-Vision Challenge: Methods and Results Mang Tik Chiu, Xingqian Xu, Kai Wang, Jennifer A. Hobbs, Naira Hovakimyan, Thomas S. Huang, Honghui Shi, Yunchao Wei, Zilong Huang, Alexander G. Schwing, Robert Brunner, Ivan Dozier, Wyatt Dozier, Karen Ghandilyan, David Wilson, Hyunseong Park, Jun Hee Kim, Sungho Kim, Qinghui Liu, Michael C. Kampffmeyer, Robert Jenssen, Arnt-Børre Salberg, Alexandre Barbosa, Rodrigo G. Trevisan, Bingchen Zhao, Shaozuo Yu, Siwei Yang, Yin Wang, Hao Sheng, Xiao Chen, Jingyi Su, Ram Rajagopal, Andrew Y. Ng, Van Thong Huynh, Soo-Hyung Kim, In Seop Na, Ujjwal Baid, Shubham Innani, Prasad Dutande, Bhakti Baheti, Sanjay N. Talbar, Jianyu Tang

AAAI 2019 Devil in the Details: Towards Accurate Single and Multiple Human Parsing Tao Ruan, Ting Liu, Zilong Huang, Yunchao Wei, Shikui Wei, Yao Zhao

ICCVW 2019 Motion-Guided Spatial Time Attention for Video Object Segmentation Qiang Zhou, Zilong Huang, Lichao Huang, Yongchao Gong, Han Shen, Wenyu Liu, Xinggang Wang

ICCV 2017 Object-Level Proposals Jianxiang Ma, Anlong Ming, Zilong Huang, Xinggang Wang, Yu Zhou