欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 文旅 > 文化 > 论文略读:Personality Alignment of Large Language Models

论文略读:Personality Alignment of Large Language Models

2025/9/14 15:05:32 来源:https://blog.csdn.net/qq_40206371/article/details/148663868  浏览:    关键词:论文略读:Personality Alignment of Large Language Models

ICLR 2025 558

当前的大语言模型(LLMs)在对齐时,通常旨在反映普遍的人类价值观与行为模式,但却常常无法捕捉到个体用户的独特特征与偏好

为填补这一空白,本文提出了**“人格对齐(Personality Alignment)”的新概念。该方法旨在使LLM的回答和决策过程能够贴合具体用户或相关群体的个性化偏好**。

受心理测量学(psychometrics)启发,我们构建了PAPI 数据集(Personality Alignment with Personality Inventories),该数据集包含来自超过32万名真实用户的个性测试数据,涵盖了:

  • 大五人格(Big Five Personality Factors)

  • “黑暗三性格”特质(Dark Triad Traits)

这一全面的数据集,使我们能够量化评估LLMs在正面人格维度与潜在问题人格维度上的对齐能力

考虑到人格对齐面临的挑战(如个人数据有限、偏好多样、对可扩展性要求高),我们提出了一种名为**激活干预优化(activation intervention optimization)**的方法,能够在仅需极少数据与计算资源的条件下,有效提升LLMs对个体行为偏好的对齐能力。

我们的方法PAS在实验中展现出卓越性能,且所需优化时间仅为现有方法 DPO 的 1/5,在实用性与效率方面具有显著优势。

我们的研究为未来AI系统实现人格化决策与推理提供了全新路径,使AI交互更具相关性、个性化与人本价值
数据集与代码已开源,地址为:https://github.com/zhu-minjun/PAlign。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词