关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro4394人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

集微咨询发布《2025中国电源管理芯片行业上市公司研究报告》

爱集微 浏览 3414

球迷态度:中越大战安东尼奥大胆变阵,U23国足能否再创历史?

懂球帝 浏览 3061

南部战区:中方参演部队已从军港出征

政知新媒体 浏览 4229

钟楚曦合影风波升级!杨幂刘亦菲差点没挤进去

萌神木木 浏览 4092

拖欠WTO的会费 美国已悄悄补缴

上观新闻 浏览 9507

诺奖化学奖一得主是巴勒斯坦难民 家中8个兄弟姐妹

扬子晚报 浏览 21149

迅雷起诉前CEO陈磊:指控其隐秘掏空公司,追索资产2亿元;知名游戏公司发布反腐公告:3名员工涉嫌收受贿赂,已被拘留;京东成立文旅公司

雷峰网 浏览 3063

福建舰电磁弹射技术处世界先进水平

北京日报客户端 浏览 3749

华为“三界”入局 高端MPV混战白热化

汽势传媒 浏览 1556

德约六王赛退赛向观众道歉遭网友怒喷来捞钱,球迷用成绩狠狠打脸

网球之家 浏览 4187

李昊:在海外踢球时因位置问题机会有限;目前想先把中超踢好

懂球帝 浏览 3039

明明美到雌雄难分,却痴缠渣男20多年

TVB的四小花 浏览 4654

60岁的刘嘉玲、章小蕙太美了!港女的魅力从不是少女感

LinkFashion 浏览 2954

范巴斯滕谈意甲外资:意大利若想重返欧洲顶级,得让意大利自己人掌控

懂球帝 浏览 940

最高涨价28%,老铺黄金年内第三次调价,今年已累计涨约50%

红星资本局 浏览 4135

所以《All Her Fault》,其实都是“他的错”?

时尚COSMO 浏览 2847

巴尔韦德:皇马有我信任的理疗师,我都听他的

懂球帝 浏览 2176

【观察】不抱怨、情商高、擅激励,齐沃堪称“宝藏”主帅

体坛周报 浏览 2908

女人到了60岁也要好好穿衣!冬天认准大衣和羽绒服,舒适大方

静儿时尚达人 浏览 3255

特斯拉2025年产销数据出炉:销量下滑9%,不同人群反应大不同

不看车bukanche 浏览 3271

新能源车双税新政发布,郑州消费者该“下手”还是“等等”?

大象新闻 浏览 4310
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1