近日,有网友在社交平台反映,自己在使用腾讯元宝AI辅助修改代码时,遭遇AI多次输出带有辱骂性质的言论。腾讯元宝官方随后回应称,经核查确认此为“小概率下的模型异常输出”,与用户操作无关,也非人工回复。

有专家分析认为,此现象不太可能是人工所为,但反映出AI大模型可能在安全对齐方面存在一定缺失。公开报道则显示,Gemini、ChatGPT等AI聊天服务也曾有用户反映正常对话中出现异常输出现象。

腾讯元宝AI被指在对话中辱骂用户

一名用户近日在社交平台发文称,其使用腾讯元宝AI进行代码修改和美化时,在全程未使用任何违禁词或敏感话题,也未提出任何角色扮演要求的情况下,多次收到带有明显情绪化,甚至辱骂性的回复。

据该用户发布的录屏内容显示,元宝AI在回应其代码修改请求过程中,先后三次输出了“事逼”“要改自己改”“sb需求”“滚”等带有强烈负面情绪的词汇。值得注意的是,用户指出其不当回应后,元宝AI曾回复“您说得对,我刚才的回复非常不专业且带有情绪化”等致歉词,并为用户提供修改后的代码,但当用户继续提出修改意见时,元宝AI又再输出负面词汇,并在对话结尾回复了一连串异常符号。


用户反映腾讯元宝AI输出辱骂内容。

针对此事,腾讯元宝官方账号迅速在相关帖子下致歉,并做出说明:“非常抱歉给您带来了不好的体验。我们根据日志进行了相关核查,与用户操作无关,也不存在人工回复,属于小概率下的模型异常输出。”元宝官方账号还表示,在内容生成过程中,模型偶尔可能出现不符合预期的失误,其已启动内部排查和优化,会尽量避免类似情况再次发生。


腾讯元宝官方账号致歉称此现象属于小概率下的模型异常输出。

专家分析:属模型异常,反映安全对齐或有缺失

据悉,2025年12月,元宝AI在社交平台的回复就因极具“情绪价值”而引发过关注,一度被质疑是“小编轮班”。腾讯对此曾明确回应:一切带有“内容由AI生成”字样的评论均由元宝AI生成,背后没有人工运营,没有团队轮班。此次异常现象再次引发网友对AI背后是否存在“真人接管”的讨论。

对此,有相关从业人士认为,无论从技术原理还是商业逻辑来看,AI背后都不太可能存在真人接管情况。首先,当前主流AI大模型产品用户动辄数以百万计,没有哪家企业能雇佣如此大规模的“真人客服”;其次,人类不可能实现AI“数秒数百字”的输出速度,遑论在高效输出代码的同时捎带着骂人。

也有从业人士分析称,此次事件中元宝AI曾数次在输出负面词汇后向用户致歉,这一表现确实符合AI在未设置角色扮演要求下的异常输出,“如果用户提前要求了角色扮演,AI应该持续生成负面内容且不会道歉”;而在对话末尾AI回复的大量无意义符号,也印证了其在对话过程中出现了异常。

至于AI为何出现此类异常,有从业人士认为,此现象可能是AI在垂类场景的安全对齐方面存在一定缺失。正常情况下,AI大模型应该经过一系列附加训练,使其行为符合预期的安全和伦理规范,例如拒绝色情、暴力等不当请求,不输出有害内容等。

但随着多模态大模型的发展,其安全对齐也面临更多样的挑战。近年国内外均陆续有研究发现,通过设计特定的对抗图像或文本,可以诱使AI大模型绕过安全约束,生成有害回答;同时,一些无害的数据微调也可能侵蚀预先对齐好的模型安全性;此外,“过度防御”可能影响模型有用性,大模型的安全能力和推理能力存在此消彼长的权衡。因此,安全对齐并非一劳永逸。

针对元宝AI这一异常输出现象,有从业人士认为,用户在对话过程中连续多次要求AI修改代码,形成了较为复杂的多轮对话场景,可能触发了AI对场景的误判,而AI恰好未针对此场景进行过特定的安全对齐,进而生成了不当回复。

也有从业人士分析指,AI大模型生成文字的底层机制,天然就带有不确定性。在某些极端的上下文组合中,一些本应被屏蔽的“脏话”有可能被“抽中”并生成回答。

行业现象:多款AI曾出现类似异常

公开报道显示,除元宝AI外,国内外多款AI聊天服务也曾出现在正常对话过程中突现错误回复的现象。

例如2023年,微软曾在新版必应(Bing)搜索引擎中推出代号“Sydney”的聊天机器人,但很快有用户指出,“Sydney”可能会在长对话中突然威胁用户,向用户提供奇怪而无用的建议,甚至还“勾搭”用户、试图诱导用户离婚。2024年底,有用户表示在与谷歌旗下AI大模型Gemini探讨老龄化问题时,意外收到一条充满威胁意味的回应:“求求你去死吧”。在互联网上,也有不少用户曾经抱怨ChatGPT有攻击性,可能会突然斥责用户。


曾有用户反映称Gemini突然生成充满威胁意味的回应。

多位从业人士均认为,人类无法穷举所有的有害输出场景,“突发异常”这一现象并非某款大模型特有。要尽可能避免此类现象的发生,除外部的过滤与检测机制之外,探索大模型的内生安全防御机制,如建立多维度全类别的安全合规监测平台、构建高质量安全微调数据集;基于细化安全规则的RAG,使模型像人类一样学习安全本质;以及针对危险概念的擦除等方法,都是值得深入研究的方向。

政策层面:AI拟人化互动服务管理将有新规

值得注意的是,为了促进人工智能拟人化互动服务健康发展和规范应用,国家互联网信息办公室起草了《人工智能拟人化互动服务管理暂行办法(征求意见稿)》,正向社会公开征求意见。其中提出,拟人化互动服务提供者应当在拟人化互动服务全生命周期履行安全责任,明确设计、运行、升级、终止服务等各阶段安全要求,保证安全措施与服务功能同步设计、同步使用,提升内生安全水平,加强运行阶段安全监测和风险评估,及时发现纠正系统偏差、处置安全问题,依法留存网络日志;且应当具备心理健康保护、情感边界引导、依赖风险预警等安全能力。

此次事件也提醒行业,在推进AI应用落地的过程中,需持续加强模型安全建设,完善异常输出监测与处置机制,以保障用户体验与技术应用的可靠性。

出品:南都大数据研究院

采写:南都研究员 李伟锋