Doersch, Carl

25 publications

ICML 2025 Direct Motion Models for Assessing Generated Videos Kelsey R Allen, Carl Doersch, Guangyao Zhou, Mohammed Suhail, Danny Driess, Ignacio Rocco, Yulia Rubanova, Thomas Kipf, Mehdi S. M. Sajjadi, Kevin Patrick Murphy, Joao Carreira, Sjoerd Van Steenkiste

CoRL 2025 Gen2Act: Human Video Generation in Novel Scenarios Enables Generalizable Robot Manipulation Homanga Bharadhwaj, Debidatta Dwibedi, Abhinav Gupta, Shubham Tulsiani, Carl Doersch, Ted Xiao, Dhruv Shah, Fei Xia, Dorsa Sadigh, Sean Kirmani

ICCV 2025 TAPNext: Tracking Any Point (TAP) as Next Token Prediction Artem Zholus, Carl Doersch, Yi Yang, Skanda Koppula, Viorica Patraucean, Xu Owen He, Ignacio Rocco, Mehdi S. M. Sajjadi, Sarath Chandar, Ross Goroshin

CVPR 2024 Learning from One Continuous Video Stream João Carreira, Michael King, Viorica Patraucean, Dilara Gokay, Catalin Ionescu, Yi Yang, Daniel Zoran, Joseph Heyward, Carl Doersch, Yusuf Aytar, Dima Damen, Andrew Zisserman

NeurIPS 2024 Moving Off-the-Grid: Scene-Grounded Video Representations Sjoerd van Steenkiste, Daniel Zoran, Yi Yang, Yulia Rubanova, Rishabh Kabra, Carl Doersch, Dilara Gokay, Joseph Heyward, Etienne Pot, Klaus Greff, Drew A. Hudson, Thomas Albert Keck, Joao Carreira, Alexey Dosovitskiy, Mehdi S. M. Sajjadi, Thomas Kipf

NeurIPS 2024 TAPVid-3D: A Benchmark for Tracking Any Point in 3D Skanda Koppula, Ignacio Rocco, Yi Yang, Joe Heyward, João Carreira, Andrew Zisserman, Gabriel Brostow, Carl Doersch

NeurIPS 2023 Perception Test: A Diagnostic Benchmark for Multimodal Video Models Viorica Patraucean, Lucas Smaira, Ankush Gupta, Adria Recasens, Larisa Markeeva, Dylan Banarse, Skanda Koppula, Joseph Heyward, Mateusz Malinowski, Yi Yang, Carl Doersch, Tatiana Matejovicova, Yury Sulsky, Antoine Miech, Alexandre Fréchette, Hanna Klimczak, Raphael Koster, Junlin Zhang, Stephanie Winkler, Yusuf Aytar, Simon Osindero, Dima Damen, Andrew Zisserman, Joao Carreira

ICCV 2023 TAPIR: Tracking Any Point with Per-Frame Initialization and Temporal Refinement Carl Doersch, Yi Yang, Mel Vecerik, Dilara Gokay, Ankush Gupta, Yusuf Aytar, Joao Carreira, Andrew Zisserman

CVPR 2022 Input-Level Inductive Biases for 3D Reconstruction Wang Yifan, Carl Doersch, Relja Arandjelović, João Carreira, Andrew Zisserman

CVPR 2022 Kubric: A Scalable Dataset Generator Klaus Greff, Francois Belletti, Lucas Beyer, Carl Doersch, Yilun Du, Daniel Duckworth, David J. Fleet, Dan Gnanapragasam, Florian Golemo, Charles Herrmann, Thomas Kipf, Abhijit Kundu, Dmitry Lagun, Issam Laradji, Hsueh-Ti Liu, Henning Meyer, Yishu Miao, Derek Nowrouzezahrai, Cengiz Oztireli, Etienne Pot, Noha Radwan, Daniel Rebain, Sara Sabour, Mehdi S. M. Sajjadi, Matan Sela, Vincent Sitzmann, Austin Stone, Deqing Sun, Suhani Vora, Ziyu Wang, Tianhao Wu, Kwang Moo Yi, Fangcheng Zhong, Andrea Tagliasacchi

ICLR 2022 Perceiver IO: A General Architecture for Structured Inputs & Outputs Andrew Jaegle, Sebastian Borgeaud, Jean-Baptiste Alayrac, Carl Doersch, Catalin Ionescu, David Ding, Skanda Koppula, Daniel Zoran, Andrew Brock, Evan Shelhamer, Olivier J Henaff, Matthew Botvinick, Andrew Zisserman, Oriol Vinyals, Joao Carreira

NeurIPS 2022 TAP-Vid: A Benchmark for Tracking Any Point in a Video Carl Doersch, Ankush Gupta, Larisa Markeeva, Adria Recasens, Lucas Smaira, Yusuf Aytar, Joao Carreira, Andrew Zisserman, Yi Yang

NeurIPS 2020 Bootstrap Your Own Latent - A New Approach to Self-Supervised Learning Jean-Bastien Grill, Florian Strub, Florent Altché, Corentin Tallec, Pierre Richemond, Elena Buchatskaya, Carl Doersch, Bernardo Avila Pires, Zhaohan Guo, Mohammad Gheshlaghi Azar, Bilal Piot, Koray Kavukcuoglu, Remi Munos, Michal Valko

NeurIPS 2020 CrossTransformers: Spatially-Aware Few-Shot Transfer Carl Doersch, Ankush Gupta, Andrew Zisserman

NeurIPS 2019 Sim2real Transfer Learning for 3D Human Pose Estimation: Motion to the Rescue Carl Doersch, Andrew Zisserman

ICML 2019 Structured Agents for Physical Construction Victor Bapst, Alvaro Sanchez-Gonzalez, Carl Doersch, Kimberly Stachenfeld, Pushmeet Kohli, Peter Battaglia, Jessica Hamrick

ECCV 2018 Learning Visual Question Answering by Bootstrapping Hard Attention Mateusz Malinowski, Carl Doersch, Adam Santoro, Peter Battaglia

ICCV 2017 Multi-Task Self-Supervised Visual Learning Carl Doersch, Andrew Zisserman

ECCV 2016 An Uncertain Future: Forecasting from Static Images Using Variational Autoencoders Jacob Walker, Carl Doersch, Abhinav Gupta, Martial Hebert

ICLR 2016 Data-Dependent Initializations of Convolutional Neural Networks Philipp Krähenbühl, Carl Doersch, Jeff Donahue, Trevor Darrell

ICCV 2015 Unsupervised Visual Representation Learning by Context Prediction Carl Doersch, Abhinav Gupta, Alexei A. Efros

ECCV 2014 Context as Supervisory Signal: Discovering Objects with Predictable Context Carl Doersch, Abhinav Gupta, Alexei A. Efros

NeurIPS 2013 Mid-Level Visual Element Discovery as Discriminative Mode Seeking Carl Doersch, Abhinav Gupta, Alexei A Efros

JMLR 2012 Bounding the Probability of Error for High Precision Optical Character Recognition Gary B. Huang, Andrew Kae, Carl Doersch, Erik Learned-Miller

CVPR 2010 Improving State-of-the-Art OCR Through High-Precision Document-Specific Modeling Andrew Kae, Gary B. Huang, Carl Doersch, Erik G. Learned-Miller