Fathi, Alireza

30 publications

CVPR 2025 FirePlace: Geometric Refinements of LLM Common Sense Reasoning for 3D Object Placement Ian Huang, Yanan Bao, Karen Truong, Howard Zhou, Cordelia Schmid, Leonidas Guibas, Alireza Fathi

CVPR 2025 Language-Guided Image Tokenization for Generation Kaiwen Zha, Lijun Yu, Alireza Fathi, David A. Ross, Cordelia Schmid, Dina Katabi, Xiuye Gu

NeurIPS 2025 Temporal Chain of Thought: Long-Video Understanding by Thinking in Frames Anurag Arnab, Ahmet Iscen, Mathilde Caron, Alireza Fathi, Cordelia Schmid

CVPR 2025 Visual Lexicon: Rich Image Features in Language Space XuDong Wang, Xingyi Zhou, Alireza Fathi, Trevor Darrell, Cordelia Schmid

CVPR 2024 A Generative Approach for Wikipedia-Scale Visual Entity Recognition Mathilde Caron, Ahmet Iscen, Alireza Fathi, Cordelia Schmid

ICLR 2024 Retrieval-Enhanced Contrastive Vision-Text Models Ahmet Iscen, Mathilde Caron, Alireza Fathi, Cordelia Schmid

ICML 2024 SceneCraft: An LLM Agent for Synthesizing 3D Scenes as Blender Code Ziniu Hu, Ahmet Iscen, Aashi Jain, Thomas Kipf, Yisong Yue, David A Ross, Cordelia Schmid, Alireza Fathi

NeurIPS 2024 Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach Mathilde Caron, Alireza Fathi, Cordelia Schmid, Ahmet Iscen

NeurIPS 2023 AVIS: Autonomous Visual Information Seeking with Large Language Model Agent Ziniu Hu, Ahmet Iscen, Chen Sun, Kai-Wei Chang, Yizhou Sun, David A. Ross, Cordelia Schmid, Alireza Fathi

CVPR 2023 Improving Image Recognition by Retrieving from Web-Scale Image-Text Data Ahmet Iscen, Alireza Fathi, Cordelia Schmid

TMLR 2023 Learning Object-Centric Neural Scattering Functions for Free-Viewpoint Relighting and Scene Composition Hong-Xing Yu, Michelle Guo, Alireza Fathi, Yen-Yu Chang, Eric Ryan Chan, Ruohan Gao, Thomas Funkhouser, Jiajun Wu

CVPR 2023 REVEAL: Retrieval-Augmented Visual-Language Pre-Training with Multi-Source Multimodal Knowledge Memory Ziniu Hu, Ahmet Iscen, Chen Sun, Zirui Wang, Kai-Wei Chang, Yizhou Sun, Cordelia Schmid, David A. Ross, Alireza Fathi

CVPR 2022 Panoptic Neural Fields: A Semantic Object-Aware Neural Scene Representation Abhijit Kundu, Kyle Genova, Xiaoqi Yin, Alireza Fathi, Caroline Pantofaru, Leonidas J. Guibas, Andrea Tagliasacchi, Frank Dellaert, Thomas Funkhouser

ECCV 2022 PreTraM: Self-Supervised Pre-Training via Connecting Trajectory and mAP Chenfeng Xu, Tian Li, Chen Tang, Lingfeng Sun, Kurt Keutzer, Masayoshi Tomizuka, Alireza Fathi, Wei Zhan

ECCV 2020 An LSTM Approach to Temporal 3D Object Detection in LiDAR Point Clouds Rui Huang, Wanyue Zhang, Abhijit Kundu, Caroline Pantofaru, David A Ross, Thomas Funkhouser, Alireza Fathi

ECCV 2020 Pillar-Based Object Detection for Autonomous Driving Yue Wang, Alireza Fathi, Abhijit Kundu, David A. Ross, Caroline Pantofaru, Tom Funkhouser, Justin Solomon

ECCV 2020 Virtual Multi-View Fusion for 3D Semantic Segmentation Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru

ICCVW 2019 Floors Are Flat: Leveraging Semantics for Real-Time Surface Normal Prediction Steven Hickson, Karthik Raveendran, Alireza Fathi, Kevin Murphy, Irfan A. Essa

ECCV 2018 Tracking Emerges by Colorizing Videos Carl Vondrick, Abhinav Shrivastava, Alireza Fathi, Sergio Guadarrama, Kevin Murphy

CVPR 2017 Speed/Accuracy Trade-Offs for Modern Convolutional Object Detectors Jonathan Huang, Vivek Rathod, Chen Sun, Menglong Zhu, Anoop Korattikara, Alireza Fathi, Ian Fischer, Zbigniew Wojna, Yang Song, Sergio Guadarrama, Kevin Murphy

CVPRW 2014 An Introduction to the 3rd Workshop on Egocentric (First-Person) Vision Steve Mann, Kris M. Kitani, Yong Jae Lee, Michael S. Ryoo, Alireza Fathi

ECCV 2014 Reasoning About Object Affordances in a Knowledge Base Representation Yuke Zhu, Alireza Fathi, Li Fei-Fei

ICCV 2013 Learning to Predict Gaze in Egocentric Video Yin Li, Alireza Fathi, James M. Rehg

CVPR 2013 Modeling Actions Through State Changes Alireza Fathi, James M. Rehg

ECCV 2012 Learning to Recognize Daily Actions Using Gaze Alireza Fathi, Yin Li, James M. Rehg

CVPR 2012 Social Interactions: A First-Person Perspective Alireza Fathi, Jessica K. Hodgins, James M. Rehg

CVPR 2011 Learning to Recognize Objects in Egocentric Activities Alireza Fathi, Xiaofeng Ren, James M. Rehg

ICCV 2011 Understanding Egocentric Activities Alireza Fathi, Ali Farhadi, James M. Rehg

CVPR 2008 Action Recognition by Learning Mid-Level Motion Features Alireza Fathi, Greg Mori

ICCV 2007 Human Pose Estimation Using Motion Exemplars Alireza Fathi, Greg Mori