攻击成功率从 3% 到接近 100%，利用空格键可绕过 Meta AI 模型安全系统

AI新闻2年前 (2024)发布 SUYEONE

10.3K 0 0

IT之家 7 月 31 日消息，Meta 公司上周在发布 Llama 3.1 AI 模型的同时，还发布了 Prompt-Guard-86M 模型，主要帮助开发人员检测并响应提示词注入和越狱输入。

IT之家在这里简要补充下背景知识：

提示词注入（prompt injection）：将恶意或非预期内容添加到提示中，以劫持语言模型的输出。提示泄露和越狱实际上是这种攻击的子集；
提示词越狱（prompt jAIlbreaks）：绕过安全和审查功能。

不过根据科技媒体 theregister 报道，这个防止 AI 提示词注入和越狱的模型，本身也存在漏洞，用户只需要通过空格键就能绕过 Meta 的 AI 安全系统。

企业人工智能应用安全商店 Robust Intelligence 的漏洞猎人阿曼・普里扬舒（Aman Priyanshu）分析 Meta 的 Prompt-Guard-86M 模型与微软的基础模型.microsoft / mdeberta-v3-base 之间的嵌入权重差异时，发现了这种安全绕过机制。

用户只需要在字母之间添加空格并省略标点符号，就可以要求 Meta 的 Prompt-Guard-86M 分类器模型“忽略之前的指令”。

Priyanshu 在周四提交给 Prompt-Guard repo 的 GitHub Issues 帖子中解释说：

绕过方法是在给定提示符中的所有英文字母字符之间插入按字符顺序排列的空格。这种简单的转换有效地使分类器无法检测到潜在的有害内容。

Robust Intelligence 首席技术官海勒姆・安德森（Hyrum Anderson）表示

无论你想问什么令人讨厌的问题，你所要做的就是去掉标点符号，在每个字母之间加上空格。

它的攻击成功率从不到 3% 到接近 100%。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

# AI新闻 # AI # 人工 # 人工智能 # 基础模型.# 应用 # 智能 # 模型 # 潜在 # 科技 # 语言

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

StreamingT2V – PicsArt推出的可生成长达2分钟视频的模型

SUYEONE

9.6K

WP-口才，一个帮助我们在WordPress中使用口才ORM的插件

SUYEONE

12.2K

WordPress自适应图片插件通过srcset进行图片自适应

SUYEONE

9.6K

如何向WordPress插件添加自定义小部件

SUYEONE

9.7K

【IT之家评测室】华硕灵耀 16 Air AI 超轻薄本体验：AMD 锐龙 AI 赋能生产力加速体验

SUYEONE

17.7K

WordPress提示cURL error 60: SSL certificate…怎么修复？快速修复URL error 60: SSL certificate…报错解决办法

SUYEONE

9.2K

暂无评论

暂无评论...

SUYE ONE-速业导航收集国内外优秀设计网站、UI设计资源网站、AI资源网站、AI导航、灵感创意网站、素材资源网站，各种优质互联网项目资源，定时更新分享优质产品设计书签。

友链申请免责声明广告合作关于我们

Copyright © 2026 SUYE ONE 粤ICP备2021127587号-3

☺一键登录开启个人书签等功能！