Laptev, Ivan

78 publications

CVPR 2025 All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages Ashmal Vayani, Dinura Dissanayake, Hasindri Watawana, Noor Ahsan, Nevasini Sasikumar, Omkar Thawakar, Henok Biadglign Ademtew, Yahya Hmaiti, Amandeep Kumar, Kartik Kukreja, Mykola Maslych, Wafa Al Ghallabi, Mihail Minkov Mihaylov, Chao Qin, Abdelrahman M. Shaker, Mike Zhang, Mahardika Krisna Ihsani, Amiel Gian Esplana, Monil Gokani, Shachar Mirkin, Harsh Singh, Ashay Srivastava, Endre Hamerlik, Fathinah Asma Izzati, Fadillah Adamsyah Maani, Sebastian Cavada, Jenny Chim, Rohit Gupta, Sanjay Manjunath, Kamila Zhumakhanova, Feno Heriniaina Rabevohitra, Azril Hafizi Amirudin, Muhammad Ridzuan, Daniya Najiha Abdul Kareem, Ketan Pravin More, Kunyang Li, Pramesh Shakya, Muhammad Saad, Amirpouya Ghasemaghaei, Amirbek Djanibekov, Dilshod Azizov, Branislava Jankovic, Naman Bhatia, Alvaro Cabrera, Johan Obando-Ceron, Olympiah Otieno, Febian Farestam, Muztoba Rabbani, Sanoojan Ballah, Santosh Sanjeev, Abduragim Shtanchaev, Maheen Fatima, Thao Nguyen, Amrin Kareem, Toluwani Aremu, Nathan Augusto Zacarias Xavier, Amit Bhatkal, Hawau Olamide Toyin, Aman Chadha, Hisham Cholakkal, Rao Muhammad Anwer, Michael Felsberg, Jorma Laaksonen, Thamar Solorio, Monojit Choudhury, Ivan Laptev, Mubarak Shah, Salman Khan, Fahad Shahbaz Khan

NeurIPS 2025 DEFT: Decompositional Efficient Fine-Tuning for Text-to-Image Models Komal Kumar, Rao Muhammad Anwer, Fahad Shahbaz Khan, Salman Khan, Ivan Laptev, Hisham Cholakkal

L4DC 2025 Learning Feasible Transitions for Efficient Contact Planning Rikhat Akizhanov, Victor Dhedin, Majid Khadiv, Ivan Laptev

ICLRW 2025 MALT: Improving Reasoning with Multi-Agent LLM Training Sumeet Ramesh Motwani, Chandler Smith, Rocktim Jyoti Das, Rafael Rafailov, Ivan Laptev, Philip Torr, Fabio Pizzati, Ronald Clark, Christian Schroeder de Witt

NeurIPS 2025 PhyBlock: A Progressive Benchmark for Physical Understanding and Planning via 3D Block Assembly Liang Ma, Jiajun Wen, Min Lin, Rongtao Xu, Xiwen Liang, Bingqian Lin, Jun Ma, Yongxin Wang, Ziming Wei, Haokun Lin, Mingfei Han, Meng Cao, Bokui Chen, Ivan Laptev, Xiaodan Liang

CVPR 2025 RoomTour3D: Geometry-Aware Video-Instruction Tuning for Embodied Navigation Mingfei Han, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev

ICCV 2025 ScanEdit: Hierarchically-Guided Functional 3D Scan Editing Mohamed El Amine Boudjoghra, Ivan Laptev, Angela Dai

CVPR 2025 ShowHowTo: Generating Scene-Conditioned Step-by-Step Visual Instructions Tomáš Souček, Prajwal Gatti, Michael Wray, Ivan Laptev, Dima Damen, Josef Sivic

NeurIPS 2025 Towards Reliable Identification of Diffusion-Based Image Manipulations Alex Costanzino, Woody Bayliss, Juil Sock, Marc Gorriz Blanch, Danijela Horak, Ivan Laptev, Philip Torr, Fabio Pizzati

CVPR 2024 GenHowTo: Learning to Generate Actions and State Transformations from Instructional Videos Tomáš Souček, Dima Damen, Michael Wray, Ivan Laptev, Josef Sivic

NeurIPS 2024 Mitigating Object Hallucination via Concentric Causal Attention Yun Xing, Yiheng Li, Ivan Laptev, Shijian Lu

CVPR 2024 PairDETR : Joint Detection and Association of Human Bodies and Faces Ammar Ali, Georgii Gaikov, Denis Rybalchenko, Alexander Chigorin, Ivan Laptev, Sergey Zagoruyko

CVPR 2024 SUGAR: Pre-Training 3D Visual Representations for Robotics Shizhe Chen, Ricardo Garcia, Ivan Laptev, Cordelia Schmid

TMLR 2023 Image Compression with Product Quantized Masked Image Modeling Alaaeldin El-Nouby, Matthew J. Muckley, Karen Ullrich, Ivan Laptev, Jakob Verbeek, Herve Jegou

CoRL 2023 PolarNet: 3D Point Clouds for Language-Guided Robotic Manipulation Shizhe Chen, Ricardo Garcia Pinel, Cordelia Schmid, Ivan Laptev

CVPR 2023 Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning Antoine Yang, Arsha Nagrani, Paul Hongsuck Seo, Antoine Miech, Jordi Pont-Tuset, Ivan Laptev, Josef Sivic, Cordelia Schmid

NeurIPS 2023 VidChapters-7m: Video Chapters at Scale Antoine Yang, Arsha Nagrani, Ivan Laptev, Josef Sivic, Cordelia Schmid

CVPR 2023 gSDF: Geometry-Driven Signed Distance Functions for 3D Hand-Object Reconstruction Zerui Chen, Shizhe Chen, Cordelia Schmid, Ivan Laptev

ECCV 2022 AlignSDF: Pose-Aligned Signed Distance Fields for Hand-Object Reconstruction Zerui Chen, Yana Hasson, Cordelia Schmid, Ivan Laptev

CoRL 2022 Instruction-Driven History-Aware Policies for Robotic Manipulations Pierre-Louis Guhur, Shizhe Chen, Ricardo Garcia Pinel, Makarand Tapaswi, Ivan Laptev, Cordelia Schmid

NeurIPS 2022 Language Conditioned Spatial Relation Reasoning for 3D Object Grounding Shizhe Chen, Pierre-Louis Guhur, Makarand Tapaswi, Cordelia Schmid, Ivan Laptev

ECCV 2022 Learning from Unlabeled 3D Environments for Vision-and-Language Navigation Shizhe Chen, Pierre-Louis Guhur, Makarand Tapaswi, Cordelia Schmid, Ivan Laptev

CVPR 2022 Look for the Change: Learning Object States and State-Modifying Actions from Untrimmed Web Videos Tomáš Souček, Jean-Baptiste Alayrac, Antoine Miech, Ivan Laptev, Josef Sivic

CVPR 2022 Think Global, Act Local: Dual-Scale Graph Transformer for Vision-and-Language Navigation Shizhe Chen, Pierre-Louis Guhur, Makarand Tapaswi, Cordelia Schmid, Ivan Laptev

CVPR 2022 TubeDETR: Spatio-Temporal Video Grounding with Transformers Antoine Yang, Antoine Miech, Josef Sivic, Ivan Laptev, Cordelia Schmid

NeurIPS 2022 Zero-Shot Video Question Answering via Frozen Bidirectional Language Models Antoine Yang, Antoine Miech, Josef Sivic, Ivan Laptev, Cordelia Schmid

ICCV 2021 Airbert: In-Domain Pretraining for Vision-and-Language Navigation Pierre-Louis Guhur, Makarand Tapaswi, Shizhe Chen, Ivan Laptev, Cordelia Schmid

NeurIPS 2021 Differentiable Rendering with Perturbed Optimizers Quentin Le Lidec, Ivan Laptev, Cordelia Schmid, Justin Carpentier

ICML 2021 Goal-Conditioned Reinforcement Learning with Imagined Subgoals Elliot Chane-Sane, Cordelia Schmid, Ivan Laptev

NeurIPS 2021 History Aware Multimodal Transformer for Vision-and-Language Navigation Shizhe Chen, Pierre-Louis Guhur, Cordelia Schmid, Ivan Laptev

ICCV 2021 Just Ask: Learning to Answer Questions from Millions of Narrated Videos Antoine Yang, Antoine Miech, Josef Sivic, Ivan Laptev, Cordelia Schmid

ICCV 2021 Segmenter: Transformer for Semantic Segmentation Robin Strudel, Ricardo Garcia, Ivan Laptev, Cordelia Schmid

CVPR 2021 Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with Transformers Antoine Miech, Jean-Baptiste Alayrac, Ivan Laptev, Josef Sivic, Andrew Zisserman

NeurIPS 2021 XCiT: Cross-Covariance Image Transformers Alaaeldin Ali, Hugo Touvron, Mathilde Caron, Piotr Bojanowski, Matthijs Douze, Armand Joulin, Ivan Laptev, Natalia Neverova, Gabriel Synnaeve, Jakob J. Verbeek, Herve Jegou

ECCV 2020 Learning Actionness via Long-Range Temporal Order Verification Dimitri Zhukov, Jean-Baptiste Alayrac, Ivan Laptev, Josef Sivic

CoRL 2020 Learning Object Manipulation Skills via Approximate State Estimation from Real Videos Vladimír Petrík, Makarand Tapaswi, Ivan Laptev, Josef Sivic

CoRL 2020 Learning Obstacle Representations for Neural Motion Planning Robin Strudel, Ricardo Garcia Pinel, Justin Carpentier, Jean-Paul Laumond, Ivan Laptev, Cordelia Schmid

CVPRW 2019 Leveraging the Present to Anticipate the Future in Videos Antoine Miech, Ivan Laptev, Josef Sivic, Heng Wang, Lorenzo Torresani, Du Tran

NeurIPS 2018 A Flexible Model for Training Action Localization with Varying Levels of Supervision Guilhem Chéron, Jean-Baptiste Alayrac, Ivan Laptev, Cordelia Schmid

ECCV 2018 BodyNet: Volumetric Inference of 3D Human Body Shapes Gul Varol, Duygu Ceylan, Bryan Russell, Jimei Yang, Ersin Yumer, Ivan Laptev, Cordelia Schmid

ECCVW 2018 MobileFace: 3D Face Reconstruction with Efficient CNN Regression Nikolai Chinaev, Alexander Chigorin, Ivan Laptev

ICCV 2017 Joint Discovery of Object States and Manipulation Actions Jean-Baptiste Alayrac, Ivan Laptev, Josef Sivic, Simon Lacoste-Julien

CVPR 2017 Learning from Synthetic Humans Gul Varol, Javier Romero, Xavier Martin, Naureen Mahmood, Michael J. Black, Ivan Laptev, Cordelia Schmid

ICCV 2017 Learning from Video and Text via Large-Scale Discriminative Clustering Antoine Miech, Jean-Baptiste Alayrac, Piotr Bojanowski, Ivan Laptev, Josef Sivic

ICCV 2017 Weakly-Supervised Learning of Visual Relations Julia Peyre, Josef Sivic, Ivan Laptev, Cordelia Schmid

ECCV 2016 ContextLocNet: Context-Aware Deep Network Models for Weakly Supervised Localization Vadim Kantorov, Maxime Oquab, Minsu Cho, Ivan Laptev

ECCV 2016 Hollywood in Homes: Crowdsourcing Data Collection for Activity Understanding Gunnar A. Sigurdsson, Gül Varol, Xiaolong Wang, Ali Farhadi, Ivan Laptev, Abhinav Gupta

CVPR 2016 Instance-Level Video Segmentation from Object Tracks Guillaume Seguin, Piotr Bojanowski, Remi Lajugie, Ivan Laptev

CVPR 2016 Thin-Slicing for Pose: Learning to Understand Pose Without Explicit Pose Estimation Suha Kwak, Minsu Cho, Ivan Laptev

CVPR 2016 Unsupervised Learning from Narrated Instruction Videos Jean-Baptiste Alayrac, Piotr Bojanowski, Nishant Agrawal, Josef Sivic, Ivan Laptev, Simon Lacoste-Julien

ICCV 2015 Context-Aware CNNs for Person Head Detection Tuan-Hung Vu, Anton Osokin, Ivan Laptev

CVPR 2015 Is Object Localization for Free? - Weakly-Supervised Learning with Convolutional Neural Networks Maxime Oquab, Leon Bottou, Ivan Laptev, Josef Sivic

CVPR 2015 On Pairwise Costs for Network Flow Multi-Object Tracking Visesh Chari, Simon Lacoste-Julien, Ivan Laptev, Josef Sivic

ICCV 2015 P-CNN: Pose-Based CNN Features for Action Recognition Guilhem Cheron, Ivan Laptev, Cordelia Schmid

ICCV 2015 Unsupervised Object Discovery and Tracking in Video Collections Suha Kwak, Minsu Cho, Ivan Laptev, Jean Ponce, Cordelia Schmid

ICCV 2015 Weakly-Supervised Alignment of Video with Text Piotr Bojanowski, Remi Lajugie, Edouard Grave, Francis Bach, Ivan Laptev, Jean Ponce, Cordelia Schmid

CVPR 2014 Efficient Feature Extraction, Encoding and Classification for Action Recognition Vadim Kantorov, Ivan Laptev

CVPR 2014 Learning and Transferring Mid-Level Image Representations Using Convolutional Neural Networks Maxime Oquab, Leon Bottou, Ivan Laptev, Josef Sivic

ECCV 2014 Predicting Actions from Static Scenes Tuan-Hung Vu, Catherine Olsson, Ivan Laptev, Aude Oliva, Josef Sivic

ECCV 2014 Weakly Supervised Action Labeling in Videos Under Ordering Constraints Piotr Bojanowski, Rémi Lajugie, Francis R. Bach, Ivan Laptev, Jean Ponce, Cordelia Schmid, Josef Sivic

ICCV 2013 Pose Estimation and Segmentation of People in 3D Movies Karteek Alahari, Guillaume Seguin, Josef Sivic, Ivan Laptev

ECCV 2012 Object Detection Using Strongly-Supervised Deformable Part Models Hossein Azizpour, Ivan Laptev

ECCV 2012 People Watching: Human Actions as a Cue for Single View Geometry David F. Fouhey, Vincent Delaitre, Abhinav Gupta, Alexei A. Efros, Ivan Laptev, Josef Sivic

ECCV 2012 Scene Semantics from Long-Term Observation of People Vincent Delaitre, David F. Fouhey, Ivan Laptev, Josef Sivic, Abhinav Gupta, Alexei A. Efros

ICCV 2011 Data-Driven Crowd Analysis in Videos Mikel Rodriguez, Josef Sivic, Ivan Laptev, Jean-Yves Audibert

ICCV 2011 Density-Aware Person Detection and Tracking in Crowds Mikel Rodriguez, Ivan Laptev, Josef Sivic, Jean-Yves Audibert

NeurIPS 2011 Learning Person-Object Interactions for Action Recognition in Still Images Vincent Delaitre, Josef Sivic, Ivan Laptev

CVPR 2011 Track to the Future: Spatio-Temporal Video Segmentation with Long-Range Motion Cues José Lezama, Karteek Alahari, Josef Sivic, Ivan Laptev

ECCV 2010 Semi-Supervised Learning of Facial Attributes in Video Neva Cherniavsky, Ivan Laptev, Josef Sivic, Andrew Zisserman

ECCVW 2010 Semi-Supervised Learning of Facial Attributes in Video Neva Cherniavsky, Ivan Laptev, Josef Sivic, Andrew Zisserman

CVPR 2009 Actions in Context Marcin Marszalek, Ivan Laptev, Cordelia Schmid

ICCV 2009 Automatic Annotation of Human Actions in Video Olivier Duchenne, Ivan Laptev, Josef Sivic, Francis R. Bach, Jean Ponce

ECCV 2008 Cross-View Action Recognition from Temporal Self-Similarities Imran N. Junejo, Emilie Dexter, Ivan Laptev, Patrick Pérez

CVPR 2008 Learning Realistic Human Actions from Movies Ivan Laptev, Marcin Marszalek, Cordelia Schmid, Benjamin Rozenfeld

ICCV 2007 Retrieving Actions in Movies Ivan Laptev, Patrick Pérez

ICCV 2005 Periodic Motion Detection and Segmentation via Approximate Sequence Alignment Ivan Laptev, Serge J. Belongie, Patrick Pérez, Josh Wills

ICCV 2003 Space-Time Interest Points Ivan Laptev, Tony Lindeberg

ECCV 1998 Multi-Scale and Snakes for Automatic Road Extraction Helmut Mayer, Ivan Laptev, Albert Baumgartner