关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro4391人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

为摆脱困局,本田采取“壮士断腕”?

禾颜阅车 浏览 1323

鲁比奥确认对伊朗“史诗怒火”军事行动已结束

财联社 浏览 767

77岁大爷孤身赴柬埔寨见网友流浪数日:互联网喊我来的

潇湘晨报 浏览 9823

在桃浦,解锁未来发展无限可能

上观新闻 浏览 3361

上海男子出门频频裸露臀部太辣眼睛 女邻居崩溃了

看看新闻Knews 浏览 35409

美政府"停摆"破纪录 英伟达市值一夜蒸发1.4万亿元

每日经济新闻 浏览 9112

eSIM来了,但还在来的路上

北京商报 浏览 4161

闪电快讯|东风奕派eπ007+正式上市 限时焕新价13.99万元起

电厂 浏览 4056

牛弹琴:香港经历不眠之夜 对罕见火灾有两个"没想到"

北京日报客户端 浏览 33267

四个月内两高管遭留置 富森美称与上市公司无关

中国经营报 浏览 3702

洋河股份第三季度营收为32.95亿元,同比下降29.01%

红星资本局 浏览 3962

鹿晗的“体面”,终于被关晓彤撑起来了

娱乐圈笔娱君 浏览 3235

雷军大动作!小米新车,增加机械门把手

财通社 浏览 3217

TA:世界杯美国队首战门票销量堪忧,甚至远不如同一场地伊朗的比赛

懂球帝 浏览 1309

特斯拉全面下架Model Y现车

电动知家 浏览 2089

乌克兰:大量哥伦比亚人参与对俄作战

每日经济新闻 浏览 3956

国信策略:抢占科技发展制高点

网易财经 浏览 4146

工信部曝光9台“狠角色”新车:A6L 3.0T功率提升,奇瑞五菱新作

蜗牛车志V 浏览 3491

网友曝姚晨新欢是侯雯元!二人交集被扒

萌神木木 浏览 2116

字母哥主动招募布克? 雄鹿有能力引进他吗?

仰卧撑FTUer 浏览 2580

石破天惊,日本电影新浪潮的开山大师名作!

幕味儿 浏览 4204
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1