研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容兰州市某某国际贸易制造厂便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功兰州市某某国际贸易制造厂实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:综合)
-
原标题:【好评中国】融合创新,让希望的田野生机勃勃) 农业农村现代化关系中国式现代化全局和成色。“十五五”规划建议提出,坚持把解决好“三农”问题作为全党工作重中之
...[详细]
-
[彭旭玮获得女子200米仰泳第六名]#彭旭玮200仰第六#巴黎奥运会女子200米仰泳决赛,彭旭玮游出2分07秒96,获得第六名。#奥运会游泳##2024巴黎奥运会#点击进入专题: 2024年巴黎奥
...[详细]
-
△当地时间8月1日,黎巴嫩遭以军空袭。 当地时间8月3日,以色列国防军称,其战机在当天晚间对黎巴嫩南部一处地区的黎真主党武装建筑及基础设施发动了空袭。 以军还证实,当天早些时候,以军无人机空袭打死
...[详细]
-
一名女游客日前在八达岭长城游览时,用钥匙在城墙上刻下名字,被其他游客举报。北京市延庆公安分局八达岭派出所一路追踪,将已经“转战”颐和园的游客唐某查获,予以治安拘留和罚款处罚。日前,外省来京的女游客唐某
...[详细]
-
野外找不着“北”?这些户外应急技巧,关键时刻能救命2025-12-04 09:50:32 来源:国家应急广播
...[详细]
-
来源:北京市气象局 预计,8月2日傍晚至3日上午,我市将出现小时降雨量超过30毫米的强降水,部分地区6小时降雨量将超过50毫米,山区及浅山区可能出现强降水诱发的山洪、泥石流、滑坡等次生灾害,低
...[详细]
-
记者从4日凌晨在四川省甘孜藏族自治州康定市姑咱镇召开的新闻发布会上获悉,截至3日23时,甘孜康定山洪泥石流灾害已造成4人遇难、23人失联。同时,当地通过入住集中安置点、投亲靠友等方式,已转移安置9
...[详细]
-
来源:财联社 财联社8月4日电,据美国媒体当地时间8月3日报道,两名美国官员称,美国中央司令部司令库里拉当天抵达中东地区。报道称,他此行的目的是协调地区国家,为伊朗可能对以色列发起的打击做准备。
...[详细]
-
随着以人工智能为代表的新一轮科技革命和产业变革深入发展,数据作为关键生产要素的战略价值愈加凸显。数据与智能的深度融合,不仅是催生新产业、新模式、新动能的重要力量,更是我国在全球数字经济竞争中构筑新优势
...[详细]
-
来源:财联社 财联社8月4日电,据美国媒体当地时间8月3日报道,两名美国官员称,美国中央司令部司令库里拉当天抵达中东地区。报道称,他此行的目的是协调地区国家,为伊朗可能对以色列发起的打击做准备。
...[详细]

中国航司运营的北京直飞阿曼马斯喀特航线完成首航
上海证券交易所副总经理董国群接受审查调查
以军打死黎真主党精锐部队一名指挥官