关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro4396人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

"巴铁"越打越猛阿富汗塔利班致电北京 中方斩钉截铁

健身狂人 浏览 110391

Meta推出Transformer与Mamba混合AI架构

科技行者 浏览 3905

伊朗军方发言人称击落敌方一架先进战斗机

财联社 浏览 1564

假期5天赚1万,全靠嘴甜

她刊 浏览 806

京粤沪专家齐聚,2026“人工智能+”教育行动在深外举行

南方都市报 浏览 1050

猜你喜欢拿“嘴替”当情绪解药......

时尚COSMO 浏览 3259

特朗普称是自己让大家变得更富有:我的敌人也过得很好

红星新闻 浏览 20658

或搭载激光雷达 长城硬派越野车谍照曝光

车质网 浏览 3461

美国坠机航母将退役

极目新闻 浏览 3963

尤斯特:我目前核心目标是保持巴萨稳定,让球队不受外部干扰

懂球帝 浏览 2277

梅开二度,姆伯莫当选与布莱顿一役曼联队内最佳球员

懂球帝 浏览 4130

以色列对胡塞开展投弹量最大一次空袭

环球网资讯 浏览 4603

列阵“泰山” 岚图汽车迈入30万辆时代

网易汽车 浏览 3823

1年暴涨16倍!超级大牛股,突然爆大雷?

财经锐眼 浏览 3238

打好价值战,吉利银河冲击「下一个百万」

网易汽车 浏览 3186

比大衣更高级,比羽绒服更时髦?它才是今年冬天最火的外套!

LinkFashion 浏览 3199

欧盟考虑强制中企转让技术 彭博社:可能引发强烈反弹

环球网资讯 浏览 8153

车展前的狂欢:4天30场发布会,谁在抢跑谁在焦虑?

车市红点 浏览 1325

惊天大冷!足总杯卫冕冠军水晶宫1-2遭第六级别球队麦克斯菲尔德淘汰

懂球帝 浏览 3157

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

网易汽车 浏览 193

顶流复工,已判若两人

她刊 浏览 1288
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1