Holness-Tofts, Alex

1 publications

NeurIPSW 2023 Reinforcement Learning Fine-Tuning of Language Models Is Biased Towards More Extractable Features Diogo Cruz, Edoardo Pona, Alex Holness-Tofts, Elias Schmied, Víctor Abia Alonso, Charlie Griffin, Bogdan-Ionut Cirstea