研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容漳州市某某电气运营部便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功漳州市某某电气运营部实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:焦点)
-
【#大使馆通报仝卓表弟已获救#】在中柬双方共同努力下,11月26日,在柬失联的中国公民李某某成功获救并抵达中国驻柬使馆。驻柬使馆已为其办理回国证件,并协调柬方为其办理回国手续。中国驻柬使馆再次提醒
...[详细]
-
黎巴嫩真主党23日发布讣告,确认真主党执行委员会主席哈希姆·萨菲丁遇难,并表示哀悼。 此前,以色列方面多次发布消息说,黎巴嫩真主党高级领导人哈希姆·萨菲丁已死亡。 黎巴嫩真主党领导人纳斯鲁拉死
...[详细]
-
△伊朗外长阿拉格齐 当地时间21日,伊朗外长阿拉格齐抵达巴林,并同巴林国王哈马德就地区局势发展、双边合作等举行会谈。 阿拉格齐表示,地区国家需要努力制止以色列政权的犯罪行为。此外,他呼吁伊朗和巴林
...[详细]
-
△约翰·柯比资料图) 当地时间10月21日,美国白宫国家安全委员会战略沟通协调员约翰·柯比在新闻发布会上表示,美国尚不明确国防部有关以色列计划对伊朗进行报复性攻击的文件是如何泄露到公共领域的。目前,
...[详细]
-
来源:光明日报你爱吃的大黄鱼,它们互相交流的“语言”被破译了?浙江海洋大学严小军教授研究团队发现了一种名为“熊去氧胆酸UDCA)”的分子,它是大黄鱼之间高效沟通的关键信号。在宁德霞浦下浒海域渔排上拍摄
...[详细]
-
[#第32届金鹰奖获奖名单来了#]20日晚,第32届中国电视金鹰奖颁奖典礼暨第15届中国金鹰电视艺术节闭幕式晚会举行,完整获奖名单如下#金鹰奖获奖名单#: 中国文联终身成就奖电视):@游本昌 张绍
...[详细]
-
黎巴嫩公共卫生部当地时间22日宣布,以军21日晚对贝鲁特吉那Jnah)地区的袭击已造成13人死亡、57人受伤。袭击地点临近贝鲁特拉菲克·哈里里大学医院,该医院建筑也遭到破坏。 拉菲克·哈里里大学
...[详细]
-
有着量化巨头之称的幻方量化,要放弃对冲产品了。 第一财经从业内人士处得知,幻方量化近期在发给投资人的公告中称,因市场环境变化,且考虑对冲产品风险,将逐步将公司对冲全系产品投资仓位降低至0。 至
...[详细]
-
当经济进入调整周期,还天天想着房子会升值,这就是你的不对了。如果还看不出,狂飙时代已经彻底过去了,那更是一种后知后觉。撰文丨魏英杰楼市的事情,很多人都不关心了。其实就是那么一回事,多说无益。不过,前些
...[详细]
-
[环球时报综合报道]据欧洲新闻网19日报道,18日,波兰东南部城市斯塔洛瓦沃拉发生一桩诡异事件。 报道称,当地一名司机在马路上开车时,车窗突然被一张床单盖住,床单掉落后,司机赫然发现路面上躺着一
...[详细]

“错峰”旅游热度高 新疆、青海等目的地受青睐
土耳其航空航天公司总部发生爆炸,并响起枪声