NLP论文速读（EMNLP2024）|多风格可控生成的动态多奖励权重

论文速读|Dynamic Multi-Reward Weighting for Multi-Style Controllable Generation

论文信息：

简介：

本文探讨了文本风格在沟通中的重要性，指出文本风格传达了除原始语义内容之外的多种信息，如人际关系动态（例如正式性）和作者的情绪或态度（例如厌恶）。

随着大型语言模型（LLMs）的能力增强和受欢迎程度提高，对LLMs输出风格进行细粒度控制的需求日益增长。然而，如何在生成文本时将目标风格编织在一起，例如产生既负面又无毒的文本，是一个开放性问题。

本文提出使用多目标强化学习（RL）作为控制生成的一种方法，但如何最好地在奖励函数中结合多个目标是一个未解决的问题。

本文的动机在于实际文本中通常不仅包含单一风格，而是风格的组合。例如，在工作场合给同事提供反馈时，可能需要同时使用正式和积极的风格。

此外，为了响应用户偏好或应用需求，LLM可能需要同时控制其他属性，如幽默、正式性或比喻语言的使用。因此，需要一种可靠的多风格控制技术来实现这些目标。

论文方法：

本文提出了一种动态多奖励加权方法，用于多风格可控生成。该方法涉及以下几个关键步骤：

1）预训练语言模型：使用LLaMA2 7B作为基模型，针对情感、正式性、讽刺、情绪和毒性训练判别器。

2）强化学习（RL）框架：将生成语言模型视为一个策略网络，该策略网络是一个在给定状态下决定下一步行动的概率分布。

3）多奖励控制公式：提出了多种结合多个风格判别器输出的方法，包括对数几率（Logits）、softmax、二值化（Binarized）、校准对数几率（Calibrated Logit scores）和动态加权（Dynamic Weighting）。其中，动态加权方法通过考虑每个判别器的梯度大小来加权结果，以此作为奖励函数的一部分。

4）微调：使用PPO算法对语言模型进行微调，以最大化期望奖励值。

5）实验设置：包括基模型、判别器训练、RL训练和评估集的详细配置。

6）评估：基于模型生成的文本是否符合目标风格以及保持原始模型的语言质量进行评估，包括自动评估和人类评估。