关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2952人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

业主84万元新房被粪水环绕 管道一天直排粪水10余次

潇湘晨报 浏览 5718

为新能源再投10亿,苹果为何还不造车?

BT财经 浏览 2941

很运动 全新雷克萨斯ES F SPORT渲染图曝光

车质网 浏览 3328

收藏这篇就够了!本地人私藏的广州逛吃指南

黎贝卡的异想世界 浏览 2472

为避免与白宫格斗冠军赛冲突 法国推迟举行G7峰会

环球网资讯 浏览 7232

奥迪A8L和雷克萨斯LS或无后续全尺寸轿车接班!

凡兮说 浏览 2521

英超积分榜:热刺伯恩茅斯分列二、三 狼队全败 维拉西汉姆5轮3分

直播吧 浏览 3063

国乒多人离队 总教练秦志戬回应

乒乓世界 浏览 11331

以数字化锻造发展引擎!财信证券书写“五篇大文章”

券商中国 浏览 2879

普通人衣服没必要买太多,准备好这些实用的单品,百搭又舒适

静儿时尚达人 浏览 2657

但斌91亿元美股持仓出炉:大幅加仓谷歌至第一重仓股,英伟达退居次席

澎湃新闻 浏览 1462

山东省首家国际顶尖科学家工作室启动,聚焦阿秒激光技术领域

财闻 浏览 567

火遍全网的这件外套太好穿,我总结了几个实用搭配公式

黎贝卡的异想世界 浏览 2531

牛弹琴:特朗普“三个很开心” 让全世界脊背发凉

现代快报 浏览 85487

在马来西亚失联男子姐姐:不知道弟弟是跟女生一起出游

极目新闻 浏览 3903

美国司法部查扣12.7万枚比特币 其所有人仍在逃

澎湃新闻 浏览 7622

何晴告别式现场,前夫许亚军疑似现身双眼泛红,大量群众自发悼念

萌神木木 浏览 1966

专家:高市早苗跟台湾关系较密切 会让大陆比较担忧

澎湃新闻 浏览 5852

拒绝被逆转,曼联本赛季英超领先后保持不败

懂球帝 浏览 2551

乌克兰全境频遭空袭 中使馆发布重要提醒

每日经济新闻 浏览 1688

辽宁U18男足点球5-4战胜山东U18男足,夺得全运会冠军

懂球帝 浏览 2554
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1