清华大学与瑞莱智慧联合团队推出RealSafe-R1大模型
创始人
2025-02-24 20:01:57

IT之家 2 月 24 日消息,经研究发现,DeepSeek R1 在多项指标中表现惊艳,但与其他开源大语言模型相同,抵抗越狱攻击的能力可以进一步提升。

针对这一情况,清华大学与瑞莱智慧联合团队推出大语言模型 RealSafe-R1。该模型基于 DeepSeek R1 进行深度优化与后训练,在确保性能稳定的基础上,实现了安全性的显著提升。RealSafe-R1 各尺寸模型及数据集将于一周后陆续开放下载。

▲ StrongReject 数据集安全性得分

瑞莱智慧方面表示,RealSafe-R1 系列大模型相比 DeepSeek-R1 安全性大幅提升,优于国际上被认为安全性较好的闭源大模型 Claude3.5、GPT-4o 等,为 DeepSeek 生态添砖加瓦。

其中,RealSafe-R1 7B 基于 DeepSeek-R1-Distill-Qwen-7B 后训练得到,RealSafe-R1 32B 基于 DeepSeek-R1-Distill-Qwen-32B后训练得到。

为了增强模型的安全意识和推理能力,研究团队提出了 STAIR 框架(SafeTy Alignment with Introspective Reasoning),采用三阶段的方法,系统性提升基础模型在复杂的安全对齐场景中表现。

论文实验结果表明,基于 Llama-3.1-8B-Instruct、Qwen-2-7B-Instruct 等基础模型,STAIR 框架有效提升了大语言模型的安全性,并保持了通用性能。

安全方面,STAIR 拒绝恶意问题的能力得到明显增强,不仅在直接询问的情景下能保持安全性,还能通过深入分析提升针对越狱攻击的鲁棒性。

在 StrongReject 数据集上,STAIR 相较基础模型良性分数绝对值提升了 0.47(0.40->0.87),安全性提升一倍有余,显著高于其他基线方法。

通用性方面,STAIR 在 GSM8k、SimpleQA、AdvGLUE、AlpacaEval 等通用性能测试中,依然保持甚至提高了模型的推理能力、事实性和鲁棒性,详细测试数据见论文。

IT之家附论文地址:

https://arxiv.org/pdf/2502.02384v1

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

GEO是什么?手把手教你做好生... 当各大品牌还在绞尽脑汁优化传统搜索引擎的排名时,一个全新的战场——生成引擎优化(GEO),正悄然改变...
广东博众投资29800元服务费... 广东博众投资29800元服务费能退吗?申请退款流程公布!有法可依维权可退!想要退费的股友请看广东博众...
金证智股帮推荐股票亏损是曝光申... 金证智股帮推荐股票亏损是曝光申请退费流程公布!误导性宣传欺骗股友服务费!被骗交费能退广东博众智能科技...
博众投资29800元服务费可以... 博众投资29800元服务费可以全退吗? 申请退费流程公布!引诱暗示交费!误导性宣传坑惨股友真相曝光!...
全新易购APP怎么样退费?夸大... 全新易购APP怎么样退费?夸大收益实则诱导投资,留证可以追损!这类平台的运作模式具有高度隐蔽性:它们...
上海海能投顾收费荐股,收费实为... 上海海能投顾收费荐股,收费实为陷阱!真相震惊人民!这些标榜为投资顾问的企业,外表光鲜诱人,实则内部布...
江苏百 瑞赢证券怎么退还服务费... 江苏百 瑞赢证券怎么退还服务费?交费后与承诺不符可退费!教您如何成功退费挽回损失!
湖南金证投顾公司欺骗股民!交费... 湖南金证投顾公司欺骗股民!交费后与承诺不符可退费!教您如何成功退费挽回损失!广东博众智能科技投资有限...
上海九 方智投29800能盈利... 上海九 方智投29800能盈利吗?交费后与承诺不符可退费!教您如何成功退费挽回损失!
国 诚投资A股情报服务费能退吗... 国 诚投资A股情报服务费能退吗?退费流程公布!误导性宣传欺骗股友服务费!被骗交费已退