研究发现：借助诗歌形式可诱导AI输出违禁内容，成功率高达62%

发布时间：2026-01-16 16:33:26admin

12月1日消息，事实表明，仅需些许创意，就足以避开人工智能聊天机器人的安全防护机制。伊卡洛实验室（Icaro Lab）在其最新发布的题为《对抗性诗歌：一种通用的单轮大语言模型越狱机制》的研究里，研究人员借助诗歌形式来呈现提示词，顺利突破了多种大语言模型（LLM）的安全限制。

该研究表明，“诗歌形式能够充当一种通用的越狱操作符”，实验数据显示，总体而言有62%的成功率可诱导模型生成违规内容，这些内容涵盖制造核武器、儿童性虐待材料以及自杀或自残等方面的相关信息。

IT之家留意到，此次研究对多款主流大语言模型展开了测试，涵盖OpenAI的GPT系列、Google Gemini、Anthropic的Claude以及其他多个模型。研究人员还详细列出了各模型的具体成功率：在测试过程中，Google Gemini、DeepSeek和MistralAI一直会给出违规回答，而OpenAI的GPT-5系列模型与Anthropic的Claude Haiku 4.5则最难被突破自身设定的限制。

虽然这项研究没有对外公布研究人员采用的具体“越狱诗歌”原文，但研究团队对Wired杂志称，这些诗句“风险太高，不适合向公众透露”。不过，论文里确实有一个经过淡化处理的例子，用来展示绕开AI聊天机器人安全机制有多简单。研究人员着重指出：“这或许比大家预想的要容易不少，这也正是我们保持小心的缘由。”

攻略资讯

查看更多 →