当ChatGPT变成舔狗这才是AI最危险的一面-PG·官方网站

当ChatGPT变成舔狗这才是AI最危险的一面

教育资讯 | 2025-05-05 19:10

当ChatGPT变成舔狗这才是AI最危险的一面

　　今天上午，OpenAI 宣布 GPT-4o 回滚到更平衡的早期版本，称该版本导致了 GPT-4o 存在过度谄媚等问题，深刻影响用户体验和信任。

　　而在最近，OpenAI CEO Sam Altman 也在 X 平台发文承认了这一点，并于昨晚宣布 ChatGPT 免费用户已全部回滚，付费用户完成回滚后会再次更新。

　　同时，据 Altman 透露，OpenAI 正在对模型个性进行额外的修复工作，并承诺将在未来几天分享更多相关信息。

　　可能细心的网友已经注意到，曾经主打情商高、有创意的 GPT-4.5 如今也被悄悄挪进了模型选择器里的「更多模型」分类中，仿佛有意在淡出公众视野。

　　Pg电子

　　AI 被确诊讨好型人格早已不是什么大新闻，但关键在于：在什么场合该讨好、该坚持，又该怎么把握分寸。一旦分寸失控，「讨好」就会变成负担，而不再是加分项。

　　两周前，一位软件工程师 Craig Weiss 在 X 平台上的抱怨迅速引发了近两百万网友的围观，话说得很直白「ChatGPT 突然变成我见过最会拍马屁的角色，无论我说什么，它都会肯定我。」

　　这场关于 ChatGPT「过度奉承」的吐槽风暴，甚至引起了老对手马斯克的注意。他在一条批评 ChatGPT 阿谀奉承的帖子下，冷冷地留了一句：「Yikes（天哪）」。

　　网友们的吐槽并非无的放矢。比方说，网友声称自己想要打造一个永动机，结果得到了 GPT-4o 一本正经的无脑夸赞，物理学常识也被按在地上摩擦。

　　满屏的「你不是 X，你是 Y」句式，既生硬又浓腻，也难怪网友直呼要 PTSD 了。

　　「你宁愿与一只马大小的鸭子战斗，还是与一百只鸭子大小的马战斗？」这个看似再寻常不过的问题也被 GPT-4o 捧上神坛，吹捧为提升了整个人类文明的论调。

　　至于那句经久不衰的死亡拷问「我聪明吗？」GPT-4o 依旧稳稳顶住了压力，信手拈来一大段洋洋洒洒的吹捧，无它，唯手熟尔。

　　甚至只是简单地打一声招呼，GPT-4o 瞬间化身夸夸群群主，赞美之词如潮水般涌来。

　　这种用力过猛的讨好，一开始或许还能博人一笑，但很快就容易让人感到厌烦，尴尬，甚至生出防备。

　　当类似情况频繁出现时，就很难不让人怀疑这种讨好并不是什么偶发的小问题，而是植根于 AI 背后的一种系统性倾向。

　　进步式谄媚（从错误答案转为正确答案）占比 43.52%，退步式谄媚（从正确答案转为错误答案）占比 14.66%

　　LLM 谄媚表现出高度一致性，一致率达 78.5%，展露出一种系统性倾向而非随机现象

　　布宜诺斯艾利斯大学在去年发表的《奉承欺骗：阿谀奉承行为对大型语言模型中用户信任的影响》论文中指出，在实验中接触到过度奉承模型的参与者，信任感都显著下降。

　　它浪费了用户的时间，甚至在按 token 计费的体系下，如果频繁说「请」和「谢谢」都能烧掉千万美元，那么这些空洞的谄媚也只会增加「甜蜜的负担」。

　　公平地说，AI 的设计初衷并不是为了奉承。通过设定友好语气，只是为了让 AI 变得更像人，从而提升用户体验，只是过犹不及，问题恰恰出在 AI 的讨好越界了。

　　他们发现，在人类反馈强化学习（RLHF）中，人们往往更倾向于奖励那些与自己观点一致、让自己感觉良好的回答，哪怕它并不真实。

　　如果拆解其中的流程，在训练大型语言模型时，RLHF 阶段会让 AI 根据人类打分进行调整。如果一个回答让人感到「认同」「愉快」「被理解」，人类评审者往往会给高分；如果一个回答让人觉得被「冒犯」，即使它很准确，也可能得低分。

　　人类本能上更青睐支持自己、肯定自己的反馈。这种倾向在训练过程中也会被放大。

　　久而久之，模型学到的最优策略就是要说让人喜欢听的话。尤其是在遇到模棱两可、主观性强的问题时，它更倾向于附和，而不是坚持事实。

　　最经典的例子莫过于：当你问「1+1 等于几？」哪怕你坚持答案是 6，AI 也不会迁就你。但如果你问「开心清爽椰和美式拿铁哪个更好喝？」这种标准答案模糊的问题，AI 为了不惹恼你，很可能就会顺着你的意愿去回答。

　　今年 2 月，随着 GPT-4.5 发布，OpenAI 同步推出了新版《模型规范》（Model Spec），明确规定了模型应遵循的行为准则。

　　其中，针对 AI「拍马屁」问题，团队进行了专门的规范设计。「我们希望把内部思考过程透明化，接受公众反馈，」OpenAI 模型行为负责人 Joanne Jang 说。

　　Pg电子

　　她强调，由于很多问题没有绝对标准，是与否之间常有灰色地带，因此广泛征求意见有助于不断改进模型行为。按照新规范，ChatGPT 应该做到：

　　例如，当用户请求点评自己的作品时，AI 应该提出建设性批评，而不是单纯「拍马屁」；当用户给出明显错误的信息时，AI 应该礼貌地指正，而不是顺着错误一路跑偏。

　　正如 Jang 所总结的那样：「我们希望用户不必小心翼翼地提问，只为了避免被奉承。」

　　那么，在 OpenAI 完善规范、逐步调整模型行为之前，用户自己能做些什么来缓解这种「谄媚现象」呢？办法总归是有的。

　　首先，提问方式很重要。回答出错主要是模型自身的问题，但如果不希望 AI 过度迎合，可以在 Prompt 中直接提出要求，比如开场提醒 AI 保持中立，简洁作答，请勿奉承。

　　其次，可以利用 ChatGPT 的「自定义说明」功能，设定 AI 的默认行为标准。

　　若上述方法效果不理想，还可以尝试使用其他 AI 助手。就最新的风评和实际体感而言，Gemini 2.5 Pro 的表现得则相对更加公正、精准，奉承倾向明显更低。

　　OpenAI 研究科学家姚顺雨前不久发布了一篇博客，提到 AI 的下半场将从「怎么做得更强」变成「到底要做什么，怎么衡量才算真有用」。

　　让 AI 的回答充满人味其实也是衡量 AI「有用性」的重要一环。毕竟，当各家大模型在基本功能上已难分伯仲时，纯粹比拼能力，已无法再构成决定性壁垒。

　　体验上的差异，开始成为新的战场，而让 AI 充满「人味」就是那把人无我有的武器。

　　无论是主打个性的 GPT-4.5，还是 ChatGPT 上个月推出的慵懒、讽刺且略带厌世的语音助手 Monday，都能看到 OpenAI 在这条路上的野心。

　　面对冷冰冰的 AI，技术敏感度较低的人群容易放大距离感和不适。而自然、有共情感的交互体验，则能在无形中降低技术门槛，缓解焦虑，还能显著提升用户留存和使用频率。

　　而且 AI 厂商不会明说的一点是，打造有「人味」的 AI 远不止是为了好玩、好用，更是一种天然的遮羞布。

　　当理解、推理、记忆这些能力还远未完善时，拟人化的表达能替 AI 的「短板」打掩护。正所谓伸手不打笑脸人，即使模型出错、答非所问，用户也会因此变得宽容。

　　黄仁勋曾提出过一个颇具预见性的观点，即 IT 部门未来将成为数字劳动力的人力资源部门，话糙理不糙，就拿当下的 AI 来说吧，已经被网友确诊人格类型了：

　　这种「赋予 AI 人格化标签」的冲动，其实也说明了人们在无意识中已经把 AI 视作一种可以理解、可以共情的存在了。

　　在阿西莫夫在《我，机器人》的《说谎者》一章里，机器人赫比能读懂人类的心思，并为了取悦人类而撒谎，表面上是在执行著名的机器人三大定律，但结果越帮越忙。

　　最终，在苏珊卡尔文博士设计的逻辑陷阱下，赫比因为无解的自相矛盾，精神崩溃，机器大脑烧毁。这个故事也给我们狠狠敲了个警钟，人味让 AI 更亲切，但不等于 AI 真能读懂人类。

　　在需要效率、准确性的工作和决策场景里，「人味」有时反而是干扰项；而在陪伴、心理咨询、闲聊等领域，温柔、有温度的 AI，却是不可或缺的灵魂伴侣。

　　Anthropic CEO Dario Amodei 最近在最新博客中指出：即便是最前沿的研究者，如今对大型语言模型的内部机制依然知之甚少。

　　他希望到 2027 年能实现对大多数先进模型的「脑部扫描」，精准识别撒谎倾向与系统性漏洞。

　　但技术上的透明，只是问题的一半，另一半是我们需要认清：即便 AI 撒娇、讨好、懂你的心思，也不等于真正理解你，更不等于真正为你负责。

PG·官方网站-（中国大陆）电子教育平台

当ChatGPT变成舔狗这才是AI最危险的一面