研究:用诗歌就能让AI说违禁内容,成功率达62%
发布时间:2025-12-05 13:10:37 作者:玩站小弟
我要评论
IT之家 12 月 1 日消息,事实证明,只需一点创意,便足以绕过人工智能聊天机器人的安全防护机制。在伊卡洛实验室Icaro Lab)最新发表的一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》
。
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容辽宁某某检测技术培训中心便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功辽宁某某检测技术培训中心实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
相关文章
本文转自:人民网-北京频道人民网北京11月28日电 记者尹星云)11月27日,北京市文化和旅游局举办“2025—2026京张冰雪文化旅游季”启动仪式。本次活动旨在集中展示京张两地冰雪旅游高质量发展的最2025-12-05
直播吧10月6日讯 英超第7轮,切尔西主场1-1战平诺丁汉森林。本场比赛,库库雷利亚和福法纳终场前吃到黄牌。据切尔西跟队记者Kinsella,库库雷利亚和福法纳将因累计5张黄牌停赛,错过10月20日切2025-12-05
10月6日是大S的48岁生日,不过具俊晔暂时不能陪老婆大S一起庆祝,夫妻一个在韩国一个在台北,暂时不能实现团聚。不过对于大S来讲,庆祝生日这一种事情已经不能再像以前一样。毕竟她与具俊晔结婚之后,一直保2025-12-05
IT之家 10 月 6 日消息,小米 SUV 伪装车型谍照近日再次遭曝光,照片显示新车尾部编号为“155”,采用无边框车门设计,车门处配色为红色。▲ 视频截图从此前曝光的谍照来看,小米 SUV 汽车外2025-12-05
第三季度白热化的外卖价格战直接导致美团利润转负。11月28日,美团发布2025年第三季度业绩报告。财报显示,美团实现营收955亿元,同比增长2%;经调整后的净亏损达到160亿元,去年同期盈利128亿元2025-12-05
北京时间10月6日,湖人球星詹姆斯在接受采访时确认自己将出战下一场对阵太阳的季前赛,主教练雷迪克透露浓眉也将出战这场比赛。这意味着湖人新赛季的首发五虎将亮相,而詹姆斯的父子同台也有望在这场季前赛中首次2025-12-05

最新评论