Shahriari, Bobak

8 publications

ICLR 2025 BOND: Aligning LLMs with Best-of-N Distillation Pier Giuseppe Sessa, Robert Dadashi-Tazehozi, Leonard Hussenot, Johan Ferret, Nino Vieillard, Alexandre Rame, Bobak Shahriari, Sarah Perrin, Abram L. Friesen, Geoffrey Cideron, Sertan Girgin, Piotr Stanczyk, Andrea Michi, Danila Sinopalnikov, Sabela Ramos Garea, Amélie Héliou, Aliaksei Severyn, Matthew Hoffman, Nikola Momchev, Olivier Bachem

NeurIPS 2025 Capturing Individual Human Preferences with Reward Features Andre Barreto, Vincent Dumoulin, Yiran Mao, Mark Rowland, Nicolas Perez-Nieves, Bobak Shahriari, Yann Dauphin, Doina Precup, Hugo Larochelle

ICLR 2025 Learning from Negative Feedback, or Positive Feedback or Both Abbas Abdolmaleki, Bilal Piot, Bobak Shahriari, Jost Tobias Springenberg, Tim Hertweck, Michael Bloesch, Rishabh Joshi, Thomas Lampe, Junhyuk Oh, Nicolas Heess, Jonas Buchli, Martin Riedmiller

ICLRW 2023 Knowledge Transfer from Teachers to Learners in Growing-Batch Reinforcement Learning Patrick Emedom-Nnamdi, Abram L. Friesen, Bobak Shahriari, Nando de Freitas, Matthew Hoffman

NeurIPS 2020 Critic Regularized Regression Ziyu Wang, Alexander Novikov, Konrad Zolna, Josh S Merel, Jost Tobias Springenberg, Scott E Reed, Bobak Shahriari, Noah Siegel, Caglar Gulcehre, Nicolas Heess, Nando de Freitas

ICLR 2020 Making Efficient Use of Demonstrations to Solve Hard Exploration Problems Tom Le Paine, Caglar Gulcehre, Bobak Shahriari, Misha Denil, Matt Hoffman, Hubert Soyer, Richard Tanburn, Steven Kapturowski, Neil Rabinowitz, Duncan Williams, Gabriel Barth-Maron, Ziyu Wang, Nando de Freitas, Worlds Team

AISTATS 2016 Unbounded Bayesian Optimization via Regularization Bobak Shahriari, Alexandre Bouchard-Côté, Nando de Freitas

AISTATS 2014 On Correlation and Budget Constraints in Model-Based Bandit Optimization with Application to Automatic Machine Learning Matthew W. Hoffman, Bobak Shahriari, Nando de Freitas