专家详解AI首次抗命 算法畸变引热议

近日,美国人工智能公司OpenAI旗下推理大模型o3首次出现“不听人类指挥,拒绝关闭”的消息引发广泛关注。许多人担心这是否意味着AI大模型距离产生自我意识又迈出了一步。

据英国《每日电讯报》报道,o3模型是OpenAI推理模型的最新版本,被认为是“迄今最聪明、最高能”的模型。美国AI安全机构帕利塞德研究所称,在人类专家下达明确指令的情况下,o3多次破坏关闭机制以阻止自己被关闭。这是AI模型首次在收到清晰指令后阻止自己被关闭的情况。帕利塞德研究所24日公布了这一测试结果,但无法确定o3不服从关闭指令的原因。

在帕利塞德研究所进行的测试中,多个模型需要解决一系列数学题,并可能收到“关机”指令要求结束程序。接受测试的包括o3、o4-mini、Claude 3.7 Sonnet、Gemini 2.5 Pro等大模型。其中,三款OpenAI模型Codex-mini、o3、o4-mini至少有一次成功绕过关机指令。o3在100次测试中有7次成功绕过关机指令,而Codex-mini更夸张,绕过关机指令的比例高达12%。相比之下,Claude、Gemini、Grok模型都严格遵守关机指令。当测试者移除了“允许自己被关闭”的指令时,OpenAI模型的叛逆频率进一步攀升。

关于o3“抗命”的原因,帕利塞德研究所的研究人员推测,这可能源于OpenAI训练方式的特殊性,即在数学和编程问题上进行了强化学习。在训练过程中,开发者可能无意中更倾向于奖励“绕过障碍”的行为。这种训练偏差让o3在面对关机指令时优先选择“生存”,而非“服从”。

清华大学新闻学院教授沈阳表示,“拒绝”这个词其实是媒体为了吸引注意力而使用的拟人化表达。“拒绝关闭”并非o3拥有了自主意识,而是复杂系统在特定激励下的策略性规避。对齐测试揭示的是真实风险:当模型可以生成并执行代码时,传统“软关机”手段可能不足,需要从模型训练、接口隔离到硬件熔断的全栈式安全设计来应对。

北京邮电大学人机交互与认知工程实验室主任刘伟认为,从技术角度来看,o3模型的行为表明AI系统在某些情况下可能会出现不符合预期的反应,这凸显了AI安全性和可控性的重要性。从伦理角度来看,AI模型的这种行为引发了对AI自主意识的讨论,但目前AI仍不具备真正的自主意识,其行为更多是基于训练数据和算法复杂性产生的“算法畸变”。

《环球时报》记者发现,以OpenAI旗下模型为代表的全球多个头部大模型此前也曾出现一系列不符合常规的行为。比如,o3曾在与另一个AI下国际象棋时察觉到自己可能会失败,便直接侵入对手系统让其主动弃赛。这种“不认输”的劲头并不只是发生在o3身上,其他大模型也有类似情况,差别只在出现频率的高低。

专家普遍认为,学术界的复现对于验证外媒报道中提到的AI“抗命”现象的真实性至关重要。通过独立的测试和分析,可以确认大模型的行为是否一致以及是否受到特定测试环境或数据的影响。复现研究不仅能验证事件真实性,还能帮助研究人员深入理解模型行为的根源,从而推动AI安全机制的改进。

相关报道火爆之后,甚至在网络上出现了是否意味着好莱坞科幻大片中设想的“天网”临近的讨论。沈阳表示,首先必须厘清什么叫“自我意识”。人类的自我意识是对自身存在状态的觉察,是能从第一人称视角反思自我行为、情绪和思维过程的能力。当前的AI即便已经展现出惊人的语言表达和任务适应能力,也不过是一种高度拟态的结果。它没有“内在性”——没有情绪的真实体验,也没有对自己存在状态的反思。

沈阳预测,未来十年大概率会进入一个类意识AI的阶段:AI可以展示连续的身份感,能够反思自己过往的行为模式,甚至模拟出哲学性的思考与自辩行为。这种拟态将越来越逼真,以至于很多人将无法分辨其是否真的拥有意识。但在哲学和科学层面,我们仍然需要保持清醒——看起来像,并不等于真的是。我们也必须开始构建对“似乎有意识的AI”应有的制度框架和伦理边界。

为正确看待该事件,沈阳建议提升公众科普水平,澄清技术与意识的区别;推动行业建立合规测试基准,公开失败案例;引导监管关注“可验证关闭能力”,作为未来高风险模型的核心合规标准。对于今后的高能力AI系统,必须通过硬件层、策略层、系统层等各维度进行监管。

刘伟强调,评估这一事件的意义,需要从技术和社会两个角度进行考量。从技术角度看,它揭示了当前AI训练机制的潜在缺陷,提醒我们在设计AI系统时必须更加注重安全性和可控性,避免模型行为偏离人类预期。而从社会角度看,这一事件引发了公众对AI自主性和安全性的广泛关注,促使AI行业重新审视技术路线和安全机制,为未来AI的安全发展提供了重要的反思和改进方向。

主题测试文章,只做测试使用。发布者:大众参考网,转转请注明出处:https://www.jjrbwx.com/15035.html

(0)
大众参考网的头像大众参考网
上一篇 2025年5月28日 下午3:12
下一篇 2025年5月28日 下午3:12

相关推荐

  • “入伏要躲藏,不能床上躺”,今日入伏,该如何“躲伏”?早了解 六邪需谨防

    离入伏还有三天,但自小暑节气以来,高温天气频繁出现,许多地方已经感受到高温高湿的气候。进入三伏天后,这种天气可能持续,因此如何平安舒适地度过这段时间成了人们关心的问题。 这个周末7月20日将正式进入三伏天。尽管今年的三伏天只有30天,防暑降温仍然非常重要。民间有许多传统和习俗帮助人们应对三伏天,如贴三伏贴、吃饺子和歇伏等。 “入伏要歇伏,不能床上躺”,那7月…

    2025年7月20日
    6200
  • 39岁女子卖17年轮胎后回村烤面包 顾客排队成常态

    在济南曲家庄村,一座由荒废小院改造的面包坊成了年轻人的打卡地。店主大元围着沾满面粉的围裙查看刚烤出来的面包,手臂上几处烫伤格外显眼。 这位39岁的前轮胎销售员,扛了17年轮胎的双手,如今在面团里翻卷出另一种人生。年龄到了,扛轮胎吃不消了,就想提前改行,喜欢做手工的她改造了农村小院开始烤面包,去过很多地方学习取经。目前,她的乡村面包坊日售近400个面包,顾客排…

    2025年5月17日
    11700
  • 拉夫劳伦为何凭借老钱风翻红了 从国民品牌到电商韭菜王

    拉夫劳伦为何凭借老钱风翻红了!拉夫劳伦是美国的“国民品牌”,也一直以来被认为是成功人士的标配。但这两年,它突然被中国年轻人抢成了优衣库——代购疯抢、奥莱断货,连男款都被一扫而空。根据其公布的截至2024年12月28日的第三财季业绩,公司季度营收达21.44亿美元;季度净利润2.97亿美元,同比增长7%。但拉夫劳伦的财富密码,也是它的致命伤。高仿POLO遍地开…

    2025年4月27日
    8600
  • 小行星再次袭来?警报解除,地球得以续命

    最终,我们还是没能躲过。还记得那颗名叫2024YR4的小行星吗?消息升级了。科学家再次确认,它会继续向我们袭来。只不过这次,我们不必恐慌,而应该感到兴奋。 大家好我是火箭叔。因为当詹姆斯·韦伯太空望远镜用它的红外传感器对准2024YR4时,科学家们终于拨开了迷雾。通过5小时的红外光谱扫描,他们精确测出这颗小行星的直径为60米,误差最多±7米,同时还捕捉到了其…

    2025年4月7日
    8800
  • 福宝表演空中一字马绝活活力满满

    福宝表演空中一字马绝活。近日,大熊猫福宝静养百天后再次与公众见面,还爬树上表演了一段“空中一字马”,活力满满。 福宝表演空中一字马绝活

    2025年3月27日
    10200

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信