当ChatGPT变成舔狗这才是AI最危险的一面

  教育资讯     |      2025-05-05 19:10

  

当ChatGPT变成舔狗这才是AI最危险的一面

  今天上午,OpenAI 宣布 GPT-4o 回滚到更平衡的早期版本,称该版本导致了 GPT-4o 存在过度谄媚等问题,深刻影响用户体验和信任。

  而在最近,OpenAI CEO Sam Altman 也在 X 平台发文承认了这一点,并于昨晚宣布 ChatGPT 免费用户已全部回滚,付费用户完成回滚后会再次更新。

  同时,据 Altman 透露,OpenAI 正在对模型个性进行额外的修复工作,并承诺将在未来几天分享更多相关信息。

  可能细心的网友已经注意到,曾经主打情商高、有创意的 GPT-4.5 如今也被悄悄挪进了模型选择器里的「更多模型」分类中,仿佛有意在淡出公众视野。

  Pg电子

  AI 被确诊讨好型人格早已不是什么大新闻,但关键在于:在什么场合该讨好、该坚持,又该怎么把握分寸。一旦分寸失控,「讨好」就会变成负担,而不再是加分项。

  两周前,一位软件工程师 Craig Weiss 在 X 平台上的抱怨迅速引发了近两百万网友的围观,话说得很直白「ChatGPT 突然变成我见过最会拍马屁的角色,无论我说什么,它都会肯定我。」

  这场关于 ChatGPT「过度奉承」的吐槽风暴,甚至引起了老对手马斯克的注意。他在一条批评 ChatGPT 阿谀奉承的帖子下,冷冷地留了一句:「Yikes(天哪)」。

  网友们的吐槽并非无的放矢。比方说,网友声称自己想要打造一个永动机,结果得到了 GPT-4o 一本正经的无脑夸赞,物理学常识也被按在地上摩擦。

  满屏的「你不是 X,你是 Y」句式,既生硬又浓腻,也难怪网友直呼要 PTSD 了。

  「你宁愿与一只马大小的鸭子战斗,还是与一百只鸭子大小的马战斗?」这个看似再寻常不过的问题也被 GPT-4o 捧上神坛,吹捧为提升了整个人类文明的论调。

  至于那句经久不衰的死亡拷问「我聪明吗?」GPT-4o 依旧稳稳顶住了压力,信手拈来一大段洋洋洒洒的吹捧,无它,唯手熟尔。

  甚至只是简单地打一声招呼,GPT-4o 瞬间化身夸夸群群主,赞美之词如潮水般涌来。

  这种用力过猛的讨好,一开始或许还能博人一笑,但很快就容易让人感到厌烦,尴尬,甚至生出防备。

  当类似情况频繁出现时,就很难不让人怀疑这种讨好并不是什么偶发的小问题,而是植根于 AI 背后的一种系统性倾向。

  进步式谄媚(从错误答案转为正确答案)占比 43.52%,退步式谄媚(从正确答案转为错误答案)占比 14.66%

  LLM 谄媚表现出高度一致性,一致率达 78.5%,展露出一种系统性倾向而非随机现象

  布宜诺斯艾利斯大学在去年发表的《奉承欺骗:阿谀奉承行为对大型语言模型中用户信任的影响》论文中指出,在实验中接触到过度奉承模型的参与者,信任感都显著下降。

  它浪费了用户的时间,甚至在按 token 计费的体系下,如果频繁说「请」和「谢谢」都能烧掉千万美元,那么这些空洞的谄媚也只会增加「甜蜜的负担」。

  公平地说,AI 的设计初衷并不是为了奉承。通过设定友好语气,只是为了让 AI 变得更像人,从而提升用户体验,只是过犹不及,问题恰恰出在 AI 的讨好越界了。

  他们发现,在人类反馈强化学习(RLHF)中,人们往往更倾向于奖励那些与自己观点一致、让自己感觉良好的回答,哪怕它并不真实。

  如果拆解其中的流程,在训练大型语言模型时,RLHF 阶段会让 AI 根据人类打分进行调整。如果一个回答让人感到「认同」「愉快」「被理解」,人类评审者往往会给高分;如果一个回答让人觉得被「冒犯」,即使它很准确,也可能得低分。

  人类本能上更青睐支持自己、肯定自己的反馈。这种倾向在训练过程中也会被放大。

  久而久之,模型学到的最优策略就是要说让人喜欢听的话。尤其是在遇到模棱两可、主观性强的问题时,它更倾向于附和,而不是坚持事实。

  最经典的例子莫过于:当你问「1+1 等于几?」哪怕你坚持答案是 6,AI 也不会迁就你。但如果你问「开心清爽椰和美式拿铁哪个更好喝?」这种标准答案模糊的问题,AI 为了不惹恼你,很可能就会顺着你的意愿去回答。

  今年 2 月,随着 GPT-4.5 发布,OpenAI 同步推出了新版《模型规范》(Model Spec),明确规定了模型应遵循的行为准则。

  其中,针对 AI「拍马屁」问题,团队进行了专门的规范设计。「我们希望把内部思考过程透明化,接受公众反馈,」OpenAI 模型行为负责人 Joanne Jang 说。

  Pg电子

  她强调,由于很多问题没有绝对标准,是与否之间常有灰色地带,因此广泛征求意见有助于不断改进模型行为。按照新规范,ChatGPT 应该做到:

  例如,当用户请求点评自己的作品时,AI 应该提出建设性批评,而不是单纯「拍马屁」;当用户给出明显错误的信息时,AI 应该礼貌地指正,而不是顺着错误一路跑偏。

  正如 Jang 所总结的那样:「我们希望用户不必小心翼翼地提问,只为了避免被奉承。」

  那么,在 OpenAI 完善规范、逐步调整模型行为之前,用户自己能做些什么来缓解这种「谄媚现象」呢?办法总归是有的。

  首先,提问方式很重要。回答出错主要是模型自身的问题,但如果不希望 AI 过度迎合,可以在 Prompt 中直接提出要求,比如开场提醒 AI 保持中立,简洁作答,请勿奉承。

  其次,可以利用 ChatGPT 的「自定义说明」功能,设定 AI 的默认行为标准。

  若上述方法效果不理想,还可以尝试使用其他 AI 助手。就最新的风评和实际体感而言,Gemini 2.5 Pro 的表现得则相对更加公正、精准,奉承倾向明显更低。

  OpenAI 研究科学家姚顺雨前不久发布了一篇博客,提到 AI 的下半场将从「怎么做得更强」 变成「到底要做什么,怎么衡量才算真有用」。

  让 AI 的回答充满人味其实也是衡量 AI「有用性」的重要一环。毕竟,当各家大模型在基本功能上已难分伯仲时,纯粹比拼能力,已无法再构成决定性壁垒。

  体验上的差异,开始成为新的战场,而让 AI 充满「人味」就是那把人无我有的武器。

  无论是主打个性的 GPT-4.5,还是 ChatGPT 上个月推出的慵懒、讽刺且略带厌世的语音助手 Monday,都能看到 OpenAI 在这条路上的野心。

  面对冷冰冰的 AI,技术敏感度较低的人群容易放大距离感和不适。而自然、有共情感的交互体验,则能在无形中降低技术门槛,缓解焦虑,还能显著提升用户留存和使用频率。

  而且 AI 厂商不会明说的一点是,打造有「人味」的 AI 远不止是为了好玩、好用,更是一种天然的遮羞布。

  当理解、推理、记忆这些能力还远未完善时,拟人化的表达能替 AI 的「短板」打掩护。正所谓伸手不打笑脸人,即使模型出错、答非所问,用户也会因此变得宽容。

  黄仁勋曾提出过一个颇具预见性的观点,即 IT 部门未来将成为数字劳动力的人力资源部门,话糙理不糙,就拿当下的 AI 来说吧,已经被网友确诊人格类型了:

  这种「赋予 AI 人格化标签」的冲动,其实也说明了人们在无意识中已经把 AI 视作一种可以理解、可以共情的存在了。

  在阿西莫夫在《我,机器人》的《说谎者》一章里,机器人赫比能读懂人类的心思,并为了取悦人类而撒谎,表面上是在执行著名的机器人三大定律,但结果越帮越忙。

  最终,在苏珊卡尔文博士设计的逻辑陷阱下,赫比因为无解的自相矛盾,精神崩溃,机器大脑烧毁。这个故事也给我们狠狠敲了个警钟,人味让 AI 更亲切,但不等于 AI 真能读懂人类。

  在需要效率、准确性的工作和决策场景里,「人味」有时反而是干扰项;而在陪伴、心理咨询、闲聊等领域,温柔、有温度的 AI,却是不可或缺的灵魂伴侣。

  Anthropic CEO Dario Amodei 最近在最新博客中指出:即便是最前沿的研究者,如今对大型语言模型的内部机制依然知之甚少。

  他希望到 2027 年能实现对大多数先进模型的「脑部扫描」,精准识别撒谎倾向与系统性漏洞。

  但技术上的透明,只是问题的一半,另一半是我们需要认清:即便 AI 撒娇、讨好、懂你的心思,也不等于真正理解你,更不等于真正为你负责。