Preference-Controlled Multi-Objective Reinforcement Learning for Conditional Text Generation

Chen, Wenqing; Tian, Jidong; Fan, Caoyun; Li, Yitian; He, Hao; Jin, Yaohui

doi:10.1609/AAAI.V37I11.26490

Preference-Controlled Multi-Objective Reinforcement Learning for Conditional Text Generation

Wenqing Chen, Jidong Tian, Caoyun Fan, Yitian Li, Hao He, Yaohui Jin

AAAI 2023 pp. 12662-12672

doi:10.1609/AAAI.V37I11.26490 /aaai/2023/chen2023aaai-preference/

Abstract

Conditional text generation is to generate text sequences conditioning on linguistic or non-linguistic data. The main line of existing work proposed deterministic models to improve the fidelity of the generated text but often ignored the diversity. Another line relied on conditional variational auto-encoders (CVAEs), which increased the diversity over their deterministic backbones. However, CVAEs regard diversity as an implicit objective and may not be optimal. In this paper, we raise two questions: i) Can diversity be further improved with an explicit objective? ii) Since fidelity and diversity are two conflicting objectives, how can we obtain different multi-objective optimal solutions according to user preferences? To answer question i), we propose a multi-objective reinforcement learning (MORL) method which explicitly takes CIDEr and Self-CIDEr scores as the fidelity-oriented and diversity-oriented rewards respectively. To answer question ii), we propose a preference-controlled MORL method, which can obtain infinite multi-objective optimal solutions by tuning the preference variable. We conduct extensive experiments on paraphrasing and image captioning tasks, which show that in the fidelity-diversity trade-off space, our model outperforms both deterministic and CVAE-based baselines.

PDF AAAI Semantic Scholar

Cite

Text

Chen et al. "Preference-Controlled Multi-Objective Reinforcement Learning for Conditional Text Generation." AAAI Conference on Artificial Intelligence, 2023. doi:10.1609/AAAI.V37I11.26490

Markdown

[Chen et al. "Preference-Controlled Multi-Objective Reinforcement Learning for Conditional Text Generation." AAAI Conference on Artificial Intelligence, 2023.](https://mlanthology.org/aaai/2023/chen2023aaai-preference/) doi:10.1609/AAAI.V37I11.26490

BibTeX

@inproceedings{chen2023aaai-preference,
  title     = {{Preference-Controlled Multi-Objective Reinforcement Learning for Conditional Text Generation}},
  author    = {Chen, Wenqing and Tian, Jidong and Fan, Caoyun and Li, Yitian and He, Hao and Jin, Yaohui},
  booktitle = {AAAI Conference on Artificial Intelligence},
  year      = {2023},
  pages     = {12662-12672},
  doi       = {10.1609/AAAI.V37I11.26490},
  url       = {https://mlanthology.org/aaai/2023/chen2023aaai-preference/}
}