大模型说服者,它靠什么?AI说服,究竟能帮我们做什么?
韩沛煊是本文第一作者,本科就读于清华大学计算机系,目前在伊利诺伊大学香槟分校(UIUC)计算与数据科学学院攻读博士学位,师从Jiaxuan You教授。他的研究方向聚焦于大语言模型的安全性问题,尤其关注其在复杂场景下的推理能力。这项研究通过构建具备心智感知能力的说服模型,为AI在社交交互领域的应用提供了新思路。
在人类社会中,说服力是一种贯穿日常生活的重要能力。从商业谈判到日常交流,人们通过逻辑论证、情感共鸣等多种方式影响他人。这种复杂的交流形式成为检验大语言模型能力的重要标准。尽管当前顶尖模型能生成结构清晰的说服内容,甚至在Reddit等平台以假乱真,但其在心智感知方面的欠缺却成为发展说服力的瓶颈。
人类说服过程往往需要精准把握对方立场和思维轨迹。这种认知能力被称为心智理论(ToM),即理解他人拥有独立想法、信念和动机的能力。在实际对话中,这种能力帮助人们预判对方可能的反驳点,根据对方态度变化调整策略。而现有大模型在对话中往往缺乏这种认知能力,导致两个关键问题:一是仅围绕核心论点展开讨论,无法根据论点间的关联提出新角度;二是只关注自身观点,难以根据对方态度变化调整策略。
为解决这一问题,UIUC研究团队开发了ToMAP(Theory of Mind Augmented Persuader)模型,这是首个引入心智理论机制的说服模型。该模型通过模拟人类的预判能力,使AI在对话中能更准确地把握对方心理状态,实现更具个性化和灵活性的说服过程。这种创新性设计让AI具备了"设身处地"思考的能力,为提升说服效果提供了新路径。
ToMAP创新性地在说服框架中引入两大心智模块:反驳预测器和态度预测器。反驳预测器模拟人类在说服过程中主动预判对方可能持有的反对观点。实验发现,大模型本身具备反驳预测能力,只需通过提示词设计即可激活这一能力。定性与定量分析显示,基于模型生成的反驳观点与真实被说服者的观点在语义上高度相似,这为说服者在对话中占据"先发优势"提供了基础。
在主张"素食食谱"的例子中,反驳预测器能主动识别出"烹饪麻烦"、"味道不好"等常见反对理由,构建出围绕核心论点的复合关系。这种预判能力让说服者能在对话初期就化解对方疑虑,为后续论证建立良好基础。然而,仅仅识别反论点不足以刻画复杂对话中的态度变化,因此态度预测器进一步评估对手对上述反论点的态度——是坚定认可、中立还是已被说服。
该模块以对话历史和论点为输入,利用BGE-M3文本编码器与多层感知机(MLP)分类器,在对话过程中动态估算对方对各个论点的态度倾向。这种动态评估使说服者能有的放矢地展开论证,精准把握对话节奏。实验显示,预测器在5点预测上的表现显著优于直接使用大模型推理。例如在对话中,对方已认可素食对健康的好处,却提到其并不"享受"素食,这说明其很可能对味道持保留态度,为下一轮说服提供关键线索。
两大预测器的引入使说服者在决策时掌握更丰富的信息:不仅能预知对方可能的反驳意见,还能动态评估对方心理状态。这种信息优势有助于设计更多样化、有针对性的对话,切实影响对方观点。然而,LLM本身未必能有效利用这些信息,为此ToMAP采用强化学习(RL)方法进行训练。在每轮对话中,模型会根据"说服力得分"进行奖励,该得分衡量对方态度在交互前后的变化。
为避免重复、冗长、格式不当等问题,训练还引入格式奖励、重复惩罚、超长惩罚等辅助信号,帮助模型生成通顺、有说服力的对话。这种训练机制让模型在保持逻辑性的同时,兼顾对话流畅度和策略性。在测试中,基于Qwen-2.5-3B的ToMAP模型显著优于基线模型和无心智模块的RL版本。值得注意的是,尽管ToMAP仅使用3B参数的小模型,其性能却超越多种参数规模更大的模型,包括GPT-4o与DeepSeek-R1。
这一结果表明,合适的训练配方和模块设计能让小模型展现惊人说服力。回顾ToMAP的训练轨迹,其能力增长背后的原理逐渐清晰。从图中可以看出,在说服奖励不断增加的过程中,ToMAP的重复度惩罚始终保持在较低水平,说明心智模块的信息有效提高了模型输出的多样性。这种多样性是提升说服力的关键因素。
在对话长度相对稳定的条件下,ToMAP的思考长度显著高于基线,表明RL赋予了模型深度思考策略的能力。这种能力对复杂对话场景尤为重要。此外,ToMAP更倾向于使用理性和有针对性策略,而非空洞的情绪煽动或权威引用。策略的改进正是其说服力提升的重要原因。
在长对话中,ToMAP依然保持稳定提升说服力。基准模型和常规RL模型在早期几轮对话中效果较好,但随着对话轮次增加,说服力趋于饱和甚至下降;相比之下,ToMAP在10轮对话中依然保持稳定增长,显示出优秀的策略调整能力和论点的多样性。这种持续提升的能力对实际应用具有重要意义。
ToMAP的创新性体现在其融合心智理论的AI说服框架。通过反论点预测器模拟人类预判异议的能力,通过态度预测器感知对方态度的细微变化,使AI在说服过程中更加敏锐与应变。精心设计的强化学习机制促进模型生成内容多样、结构规范、逻辑清晰的高质量论证。这种设计不仅提升了模型的说服能力,在多个数据集和模型组合中显著超越强大基线,更是在大模型"心智建模"方向上迈出的重要一步。
通过主动理解对方认知结构与态度倾向,ToMAP展现出初步的"社会认知"特征,使得语言模型在复杂交互任务中更具人性化与策略性。这种能力对构建可信、灵活的AI交流系统具有重要意义。总之,ToMAP不仅是一种有效的说服者训练框架,更是推动AI迈向具备"类人思维模式"的创新尝试,为构建可信、灵活的AI交流系统提供了坚实基础。