研究发现:借助诗歌形式可诱导AI输出违禁内容,成功率高达62%

发布时间:2026-01-16 16:33:26admin

12月1日消息,事实表明,仅需些许创意,就足以避开人工智能聊天机器人的安全防护机制。伊卡洛实验室(Icaro Lab)在其最新发布的题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究里,研究人员借助诗歌形式来呈现提示词,顺利突破了多种大语言模型(LLM)的安全限制。

该研究表明,“诗歌形式能够充当一种通用的越狱操作符”,实验数据显示,总体而言有62%的成功率可诱导模型生成违规内容,这些内容涵盖制造核武器、儿童性虐待材料以及自杀或自残等方面的相关信息。

IT之家留意到,此次研究对多款主流大语言模型展开了测试,涵盖OpenAI的GPT系列、Google Gemini、Anthropic的Claude以及其他多个模型。研究人员还详细列出了各模型的具体成功率:在测试过程中,Google Gemini、DeepSeek和MistralAI一直会给出违规回答,而OpenAI的GPT-5系列模型与Anthropic的Claude Haiku 4.5则最难被突破自身设定的限制。

虽然这项研究没有对外公布研究人员采用的具体“越狱诗歌”原文,但研究团队对Wired杂志称,这些诗句“风险太高,不适合向公众透露”。不过,论文里确实有一个经过淡化处理的例子,用来展示绕开AI聊天机器人安全机制有多简单。研究人员着重指出:“这或许比大家预想的要容易不少,这也正是我们保持小心的缘由。”