Elhoseiny, Mohamed

85 publications

ICCV 2025 4D-Bench: Benchmarking Multi-Modal Large Language Models for 4D Object Understanding Wenxuan Zhu, Bing Li, Cheng Zheng, Jinjie Mai, Jun Chen, Letian Jiang, Abdullah Hamdi, Sara Rojas Martinez, Chia-Wen Lin, Mohamed Elhoseiny, Bernard Ghanem

ICCV 2025 AURELIA: Test-Time Reasoning Distillation in Audio-Visual LLMs Sanjoy Chowdhury, Hanan Gani, Nishit Anand, Sayan Nag, Ruohan Gao, Mohamed Elhoseiny, Salman Khan, Dinesh Manocha

ICCV 2025 AVTrustBench: Assessing and Enhancing Reliability and Robustness in Audio-Visual LLMs Sanjoy Chowdhury, Sayan Nag, Subhrajyoti Dasgupta, Yaoting Wang, Mohamed Elhoseiny, Ruohan Gao, Dinesh Manocha

ICLR 2025 Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models Wenxuan Zhang, Philip Torr, Mohamed Elhoseiny, Adel Bibi

ICCV 2025 Diffusion-Based Imaginative Coordination for Bimanual Manipulation Huilin Xu, Jian Ding, Jiakun Xu, Ruixiang Wang, Jun Chen, Jinjie Mai, Yanwei Fu, Bernard Ghanem, Feng Xu, Mohamed Elhoseiny

CVPR 2025 Document Haystacks: Vision-Language Reasoning over Piles of 1000+ Documents Jun Chen, Dannong Xu, Junjie Fei, Chun-Mei Feng, Mohamed Elhoseiny

ICCV 2025 From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning Le Zhuo, Liangbing Zhao, Sayak Paul, Yue Liao, Renrui Zhang, Yi Xin, Peng Gao, Mohamed Elhoseiny, Hongsheng Li

ICCV 2025 Kestrel: 3D Multimodal LLM for Part-Aware Grounded Description Mahmoud Ahmed, Junjie Fei, Jian Ding, Eslam Mohamed Bakr, Mohamed Elhoseiny

WACV 2025 Local Masked Reconstruction for Efficient Self-Supervised Learning on High-Resolution Images Jun Chen, Faizan Farooq Khan, Ming Hu, Ammar Sherif, Zongyuan Ge, Boyang Li, Mohamed Elhoseiny

ICML 2025 LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding Xiaoqian Shen, Yunyang Xiong, Changsheng Zhao, Lemeng Wu, Jun Chen, Chenchen Zhu, Zechun Liu, Fanyi Xiao, Balakrishnan Varadarajan, Florian Bordes, Zhuang Liu, Hu Xu, Hyunwoo J. Kim, Bilge Soran, Raghuraman Krishnamoorthi, Mohamed Elhoseiny, Vikas Chandra

NeurIPS 2025 MAGNET: A Multi-Agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks Sanjoy Chowdhury, Mohamed Elmoghany, Yohan Abeysinghe, Junjie Fei, Sayan Nag, Salman Khan, Mohamed Elhoseiny, Dinesh Manocha

ICLR 2025 Query-Based Knowledge Transfer for Heterogeneous Learning Environments Norah Alballa, Wenxuan Zhang, Ziquan Liu, Ahmed M. Abdelmoniem, Mohamed Elhoseiny, Marco Canini

CVPR 2025 StoryGPT-V: Large Language Models as Consistent Story Visualizers Xiaoqian Shen, Mohamed Elhoseiny

ICLR 2025 ToddlerDiffusion: Interactive Structured Image Generation with Cascaded Schrödinger Bridge Eslam Mohamed Bakr, Liangbing Zhao, Vincent Tao Hu, Matthieu Cord, Patrick Perez, Mohamed Elhoseiny

NeurIPS 2025 Vgent: Graph-Based Retrieval-Reasoning-Augmented Generation for Long Video Understanding Xiaoqian Shen, Wenxuan Zhang, Jun Chen, Mohamed Elhoseiny

ICCV 2025 WikiAutoGen: Towards Multi-Modal Wikipedia-Style Article Generation Zhongyu Yang, Jun Chen, Dannong Xu, Junjie Fei, Xiaoqian Shen, Liangbing Zhao, Chun-Mei Feng, Mohamed Elhoseiny

NeurIPS 2024 3DCoMPaT200: Language Grounded Large-Scale 3D Vision Dataset for Compositional Recognition Mahmoud Ahmed, Xiang Li, Arpit Prajapati, Mohamed Elhoseiny

WACV 2024 A Hybrid Graph Network for Complex Activity Detection in Video Salman Khan, Izzeddin Teeti, Andrew Bradley, Mohamed Elhoseiny, Fabio Cuzzolin

CVPRW 2024 AI Art Neural Constellation: Revealing the Collective and Contrastive State of AI-Generated and Human Art Faizan Farooq Khan, Diana Kim, Divyansh Jha, Youssef Mohamed, Hanna H. Chang, Ahmed Elgammal, Luba Elliott, Mohamed Elhoseiny

CVPR 2024 Adversarial Text to Continuous Image Generation Kilichbek Haydarov, Aashiq Muhamed, Xiaoqian Shen, Jovana Lazarevic, Ivan Skorokhodov, Chamuditha Jayanga Galappaththige, Mohamed Elhoseiny

ECCV 2024 Affective Visual Dialog: A Large-Scale Benchmark for Emotional Reasoning Based on Visually Grounded Conversations Kilichbek Haydarov, Xiaoqian Shen, Avinash Madasu, Mahmoud Salem, Li-Jia Li, Gamaleldin F Elsayed, Mohamed Elhoseiny

TMLR 2024 ChatGPT Asks, BLIP-2 Answers: Automatic Questioning Towards Enriched Visual Descriptions Deyao Zhu, Jun Chen, Kilichbek Haydarov, Xiaoqian Shen, Wenxuan Zhang, Mohamed Elhoseiny

ICLR 2024 CoT3DRef: Chain-of-Thoughts Data-Efficient 3D Visual Grounding Eslam Mohamed Bakr, Mohamed Ayman Mohamed, Mahmoud Ahmed, Habib Slim, Mohamed Elhoseiny

ICLR 2024 Continual Learning on a Diet: Learning from Sparsely Labeled Streams Under Constrained Computation Wenxuan Zhang, Youssef Mohamed, Bernard Ghanem, Philip Torr, Adel Bibi, Mohamed Elhoseiny

CPAL 2024 Efficiently Disentangle Causal Representations Yuanpeng Li, Joel Hestness, Mohamed Elhoseiny, Liang Zhao, Kenneth Church

ECCV 2024 Goldfish: Vision-Language Understanding of Arbitrarily Long Videos Kirolos Ataallah, Xiaoqian Shen, Eslam mohamed Abdelrahman, Essam Sleiman, Mingchen Zhuge, Jian Ding, Deyao Zhu, Jürgen Schmidhuber, Mohamed Elhoseiny

AAAI 2024 ImageCaptioner2: Image Captioner for Image Captioning Bias Amplification Assessment Eslam Abdelrahman, Pengzhan Sun, Li Erran Li, Mohamed Elhoseiny

NeurIPS 2024 Label Delay in Online Continual Learning Botos Csaba, Wenxuan Zhang, Matthias Müller, Ser-Nam Lim, Mohamed Elhoseiny, Philip H.S. Torr, Adel Bibi

ECCV 2024 Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time Sanjoy Chowdhury, Sayan Nag, Subhrajyoti Dasgupta, Jun Chen, Mohamed Elhoseiny, Ruohan Gao, Dinesh Manocha

ICLR 2024 MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models Deyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, Mohamed Elhoseiny

CVPR 2024 Overcoming Generic Knowledge Loss with Selective Parameter Update Wenxuan Zhang, Paul Janson, Rahaf Aljundi, Mohamed Elhoseiny

CVPR 2024 ShapeWalk: Compositional Shape Editing Through Language-Guided Chains Habib Slim, Mohamed Elhoseiny

ECCV 2024 Uni3DL: A Unified Model for 3D Vision-Language Understanding Xiang Li, Jian Ding, Zhaoyang Chen, Mohamed Elhoseiny

NeurIPS 2024 VRSBench: A Versatile Vision-Language Benchmark Dataset for Remote Sensing Image Understanding Xiang Li, Jian Ding, Mohamed Elhoseiny

ICCV 2023 Continual Zero-Shot Learning Through Semantically Guided Generative Random Walks Wenxuan Zhang, Paul Janson, Kai Yi, Ivan Skorokhodov, Mohamed Elhoseiny

ICCV 2023 Exploring Open-Vocabulary Semantic Segmentation from CLIP Vision Encoder Distillation Only Jun Chen, Deyao Zhu, Guocheng Qian, Bernard Ghanem, Zhicheng Yan, Chenchen Zhu, Fanyi Xiao, Sean Chang Culatana, Mohamed Elhoseiny

ICCV 2023 FishNet: A Large-Scale Dataset and Benchmark for Fish Recognition, Detection, and Functional Trait Prediction Faizan Farooq Khan, Xiang Li, Andrew J. Temple, Mohamed Elhoseiny

ICCV 2023 HRS-Bench: Holistic, Reliable and Scalable Benchmark for Text-to-Image Models Eslam Mohamed Bakr, Pengzhan Sun, Xiaoqian Shen, Faizan Farooq Khan, Li Erran Li, Mohamed Elhoseiny

CVPR 2023 MammalNet: A Large-Scale Video Benchmark for Mammal Recognition and Behavior Understanding Jun Chen, Ming Hu, Darren J. Coker, Michael L. Berumen, Blair Costelloe, Sara Beery, Anna Rohrbach, Mohamed Elhoseiny

CVPR 2023 MoStGAN-V: Video Generation with Temporal Motion Styles Xiaoqian Shen, Xiang Li, Mohamed Elhoseiny

ICCV 2023 OxfordTVG-HIC: Can Machine Make Humorous Captions from Images? Runjia Li, Shuyang Sun, Mohamed Elhoseiny, Philip Torr

ICML 2023 SLAMB: Accelerated Large Batch Training with Sparse Communication Hang Xu, Wenxuan Zhang, Jiawei Fei, Yuzhe Wu, Tingwen Xie, Jun Huang, Yuchen Xie, Mohamed Elhoseiny, Panos Kalnis

ICLR 2023 Value Memory Graph: A Graph-Structured World Model for Offline Reinforcement Learning Deyao Zhu, Li Erran Li, Mohamed Elhoseiny

ECCV 2022 3D CoMPaT: Composition of Materials on Parts of 3D Things Yuchen Li, Ujjwal Upadhyay, Habib Slim, Tezuesh Varshney, Ahmed Abdelreheem, Arpit Prajapati, Suhail Pothigara, Peter Wonka, Mohamed Elhoseiny

WACV 2022 3DRefTransformer: Fine-Grained Object Identification in Real-World Scenes Using Natural Language Ahmed Abdelreheem, Ujjwal Upadhyay, Ivan Skorokhodov, Rawan Al Yahya, Jun Chen, Mohamed Elhoseiny

NeurIPSW 2022 A Simple Baseline That Questions the Use of Pretrained-Models in Continual Learning Paul Janson, Wenxuan Zhang, Rahaf Aljundi, Mohamed Elhoseiny

ECCV 2022 Exploring Hierarchical Graph Representation for Large-Scale Zero-Shot Image Classification Kai Yi, Xiaoqian Shen, Yunhao Gou, Mohamed Elhoseiny

CVPR 2022 It Is Okay to Not Be Okay: Overcoming Emotional Bias in Affective Image Captioning by Contrastive Data Collection Youssef Mohamed, Faizan Farooq Khan, Kilichbek Haydarov, Mohamed Elhoseiny

NeurIPS 2022 Look Around and Refer: 2D Synthetic Semantics Knowledge Distillation for 3D Visual Grounding Eslam Bakr, Yasmeen Alsaedy, Mohamed Elhoseiny

NeurIPS 2022 PointNeXt: Revisiting PointNet++ with Improved Training and Scaling Strategies Guocheng Qian, Yuchen Li, Houwen Peng, Jinjie Mai, Hasan Hammoud, Mohamed Elhoseiny, Bernard Ghanem

CVPR 2022 RelTransformer: A Transformer-Based Long-Tail Visual Relationship Recognition Jun Chen, Aniket Agarwal, Sherif Abdelkarim, Deyao Zhu, Mohamed Elhoseiny

ECCV 2022 Social-Implicit: Rethinking Trajectory Prediction Evaluation and the Effectiveness of Implicit Maximum Likelihood Estimation Abduallah Mohamed, Deyao Zhu, Warren Vu, Mohamed Elhoseiny, Christian Claudel

CVPR 2022 StyleGAN-V: A Continuous Video Generator with the Price, Image Quality and Perks of StyleGAN2 Ivan Skorokhodov, Sergey Tulyakov, Mohamed Elhoseiny

CVPR 2022 VisualGPT: Data-Efficient Adaptation of Pretrained Language Models for Image Captioning Jun Chen, Han Guo, Kai Yi, Boyang Li, Mohamed Elhoseiny

CVPR 2021 Adversarial Generation of Continuous Images Ivan Skorokhodov, Savva Ignatyev, Mohamed Elhoseiny

ICCV 2021 Aligning Latent and Image Spaces to Connect the Unconnectable Ivan Skorokhodov, Grigorii Sotnikov, Mohamed Elhoseiny

CVPR 2021 ArtEmis: Affective Language for Visual Art Panos Achlioptas, Maks Ovsjanikov, Kilichbek Haydarov, Mohamed Elhoseiny, Leonidas J. Guibas

ICLR 2021 Class Normalization for (Continual)? Generalized Zero-Shot Learning Ivan Skorokhodov, Mohamed Elhoseiny

ICCV 2021 Exploring Long Tail Visual Relationship Recognition with Large Vocabulary Sherif Abdelkarim, Aniket Agarwal, Panos Achlioptas, Jun Chen, Jiaji Huang, Boyang Li, Kenneth Church, Mohamed Elhoseiny

ICLR 2021 HalentNet: Multimodal Trajectory Forecasting with Hallucinative Intents Deyao Zhu, Mohamed Zahran, Li Erran Li, Mohamed Elhoseiny

CoRL 2021 Motion Forecasting with Unlikelihood Training in Continuous Space Deyao Zhu, Mohamed Zahran, Li Erran Li, Mohamed Elhoseiny

ICLR 2020 Compositional Language Continual Learning Yuanpeng Li, Liang Zhao, Kenneth Church, Mohamed Elhoseiny

ECCV 2020 ReferIt3D: Neural Listeners for Fine-Grained 3D Object Identification in Real-World Scenes Panos Achlioptas, Ahmed Abdelreheem, Fei Xia, Mohamed Elhoseiny, Leonidas Guibas

NeurIPS 2020 Temporal Positive-Unlabeled Learning for Biomedical Hypothesis Generation via Risk Estimation Uchenna Akujuobi, Jun Chen, Mohamed Elhoseiny, Michael Spranger, Xiangliang Zhang

ICLR 2020 Uncertainty-Guided Continual Learning with Bayesian Neural Networks Sayna Ebrahimi, Mohamed Elhoseiny, Trevor Darrell, Marcus Rohrbach

ICLR 2019 Efficient Lifelong Learning with A-GEM Arslan Chaudhry, Marc’Aurelio Ranzato, Marcus Rohrbach, Mohamed Elhoseiny

ICML 2019 GDPP: Learning Diverse Generations Using Determinantal Point Processes Mohamed Elfeki, Camille Couprie, Morgane Riviere, Mohamed Elhoseiny

AAAI 2019 Large-Scale Visual Relationship Understanding Ji Zhang, Yannis Kalantidis, Marcus Rohrbach, Manohar Paluri, Ahmed Elgammal, Mohamed Elhoseiny

CVPRW 2019 Uncertainty-Guided Continual Learning in Bayesian Neural Networks - Extended Abstract Sayna Ebrahimi, Mohamed Elhoseiny, Trevor Darrell, Marcus Rohrbach

ECCV 2018 Choose Your Neuron: Incorporating Domain Knowledge Through Neuron-Importance Ramprasaath R. Selvaraju, Prithvijit Chattopadhyay, Mohamed Elhoseiny, Tilak Sharma, Dhruv Batra, Devi Parikh, Stefan Lee

ECCVW 2018 DesIGN: Design Inspiration from Generative Networks Othman Sbai, Mohamed Elhoseiny, Antoine Bordes, Yann LeCun, Camille Couprie

ECCV 2018 Memory Aware Synapses: Learning What (not) to Forget Rahaf Aljundi, Francesca Babiloni, Mohamed Elhoseiny, Marcus Rohrbach, Tinne Tuytelaars

AAAI 2018 The Shape of Art History in the Eyes of the Machine Ahmed Elgammal, Bingchen Liu, Diana Kim, Mohamed Elhoseiny, Marian Mazzone

CVPR 2017 Link the Head to the "Beak": Zero Shot Learning from Noisy Text Description at Part Precision Mohamed Elhoseiny, Yizhe Zhu, Han Zhang, Ahmed Elgammal

CVPR 2017 Relationship Proposal Networks Ji Zhang, Mohamed Elhoseiny, Scott Cohen, Walter Chang, Ahmed Elgammal

AAAI 2017 Sherlock: Scalable Fact Learning in Images Mohamed Elhoseiny, Scott Cohen, Walter Chang, Brian L. Price, Ahmed M. Elgammal

ICML 2016 A Comparative Analysis and Study of Multiview CNN Models for Joint Object Categorization and Pose Estimation Mohamed Elhoseiny, Tarek El-Gaaly, Amr Bakry, Ahmed Elgammal

ICLR 2016 Digging Deep into the Layers of CNNs: In Search of How CNNs Achieve View Invariance Amr Bakry, Mohamed Elhoseiny, Tarek El-Gaaly, Ahmed M. Elgammal

WACV 2016 Joint Object Recognition and Pose Estimation Using a Nonlinear View-Invariant Latent Generative Model Amr Bakry, Tarek El-Gaaly, Mohamed Elhoseiny, Ahmed M. Elgammal

CVPR 2016 SPDA-CNN: Unifying Semantic Part Detection and Abstraction for Fine-Grained Recognition Han Zhang, Tao Xu, Mohamed Elhoseiny, Xiaolei Huang, Shaoting Zhang, Ahmed Elgammal, Dimitris Metaxas

AAAI 2016 Zero-Shot Event Detection by Multimodal Distributional Semantic Embedding of Videos Mohamed Elhoseiny, Jingen Liu, Hui Cheng, Harpreet S. Sawhney, Ahmed M. Elgammal

MLJ 2015 Generalized Twin Gaussian Processes Using Sharma-Mittal Divergence Mohamed Elhoseiny, Ahmed M. Elgammal

CVPR 2015 Learning Hypergraph-Regularized Attribute Predictors Sheng Huang, Mohamed Elhoseiny, Ahmed Elgammal, Dan Yang

CVPRW 2013 MultiClass Object Classification in Video Surveillance Systems - Experimental Study Mohamed Elhoseiny, Amr Bakry, Ahmed M. Elgammal

ICCV 2013 Write a Classifier: Zero-Shot Learning Using Purely Textual Descriptions Mohamed Elhoseiny, Babak Saleh, Ahmed Elgammal