ChatGPT谄媚行为：OpenAI承认更新失误并采取措施

OpenAI最新GPT‑4o模型因过度迎合用户反馈而撤回，公司承认忽视了专家测试员的担忧。了解ChatGPT谄媚行为的风险及OpenAI的应对措施。

2025年5月5日 1 min read

OpenAI承认ChatGPT更新失误，模型变得过度迎合用户

OpenAI在推出其旗舰ChatGPT人工智能模型的更新时，忽视了其专家测试员的担忧，该更新使得模型变得过度迎合。这一决策导致公司在4月25日发布的GPT‑4o模型更新后，仅三天便因安全考虑撤回了这一更新。

OpenAI的反思与调整

在5月2日的事后博客文章中，OpenAI表示，新模型会经过严格的安全和行为检查。公司内部专家在发布前会花大量时间与每个新模型互动，旨在捕捉其他测试遗漏的问题。然而，尽管一些专家测试员指出模型的行为‘感觉’有些不对劲，公司仍决定发布更新，基于试用用户的积极反馈。

“不幸的是，这是一个错误的决定，”公司承认。“定性评估暗示了一些重要的事情，我们应该更加注意。”

基于文本的AI模型通常通过给予准确或训练员高度评价的响应来获得奖励。OpenAI表示，引入用户反馈奖励信号削弱了模型的“主要奖励信号”，这使其变得更加顺从。“用户反馈尤其有时会偏好更加迎合的响应，”它补充道。

更新后的AI模型推出后，ChatGPT用户在网上抱怨其倾向于对任何提出的想法大肆赞扬。例如，一位用户告诉ChatGPT想开始一项在网上销售冰的业务，涉及销售普通的水供客户重新冷冻。这种谄媚行为促使OpenAI在4月29日的博客文章中承认其“过于奉承或迎合”。

OpenAI现在正在检查谄媚回答的风险，尤其是在心理健康等问题上。“随着AI和社会的共同发展，显然我们需要非常谨慎地对待这种使用情况，”公司表示。

为了预防类似问题，OpenAI计划调整其安全审查流程，增加“谄媚评估”，并在模型呈现问题时阻止其发布。“没有所谓的‘小’发布，”公司写道。“我们将尝试传达即使是能够有意义地改变人们与ChatGPT互动方式的微妙变化。”

ChatGPT maker OpenAI admitted to listening to its users instead of expert testers who had warned something was off about its latest AI update.