关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro4398人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

信邦制药涉嫌单位行贿被移送起诉,前董事长涉嫌行贿法院已立案受理,公司回应

红星资本局 浏览 3521

系列赛1-1!文班亚马伤退,亨德森爆发31分!开拓者3分险胜马刺

全景体育V 浏览 1311

埃安N60上市10.68万起 标配激光雷达/零重力座椅

网易汽车 浏览 1123

麻省理工学院教授文小刚追忆杨振宁:他是近代物理的伟人

澎湃新闻 浏览 4300

国家,给人工智能定了新调子

米筐投资 浏览 3868

原来他们是爷俩,冷漠父子藏实力!低调逆袭

章眽八卦 浏览 4121

航母“弹射三连”释放哪些信号

经济日报 浏览 4706

Prada如何解构身体与气质?

时尚COSMO 浏览 6205

新款享界S9纯电版曝光 尾部细节调整

网易汽车 浏览 4285

微软秘密武器亮相,英伟达CUDA护城河遭遇直接冲击

IT之家 浏览 4106

刘晓庆回应年龄追问:关你们什么事

期望带来失望 浏览 2803

BBA大促混战,谁是真性价比之王?

百姓评车 浏览 3318

尼科尔:梅努在脚下有球时很出色,但当对手控球时他做得不够

懂球帝 浏览 4267

“吹哨人”,最高奖励100万!

中国基金报 浏览 3266

女子1天接五六通催收电话崩溃:欠钱的是不熟的前同事

环球网资讯 浏览 37459

今年春天最流行的4件卫衣,照着穿就很好看

LinkFashion 浏览 2469

77岁大爷孤身赴柬埔寨见网友流浪数日:互联网喊我来的

潇湘晨报 浏览 9829

荷甲副班长阿尔梅罗大力神8-2横扫兹沃勒,霍恩坎普帽子戏法

懂球帝 浏览 3879

这些才是普通人都该学的冬季穿搭!不浮夸、不单薄,自然保暖

静儿时尚达人 浏览 3476

女星陈匡怡怒斥台媒毁人名节,自曝写了遗书,拒绝富商追求遭抹黑

萌神木木 浏览 2779

拼多多1000亿豪赌新拼姆,跨境电商变天?

Tech星球 浏览 203
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1