为OpenClaw们装上智能安全锁,长亭发布”守元”大模型安全围栏
Published:
原文发布于长亭科技微信公众号,点击阅读原文
OpenClaw爆火,全民养虾时代来临。但安全问题已是刻不容缓。
国家多部门连续发布警示,OpenClaw风险极高。据国家信息安全漏洞库(CNNVD)统计,截至3月9日,OpenClaw漏洞多达82个,其中超危和高危漏洞有33个。安全风险可谓触目惊心。
养虾虽潮,不可瞎养。企业落地AI 智能体,和个人摸索AI 智能体是完全不同的维度,安全底线是决定其能否真正落地业务场景的关键。
虚假信息、暴力色情内容、模型越狱攻击、敏感数据泄露……这些问题一旦失控,轻则损害企业声誉,重则触发法律合规底线。
身为国内智能安全领域的排头兵,长亭科技正式推出“守元”大模型安全围栏。
“守元”聚焦大模型应用核心风险,创新流式异步检测、多模型混合检测、数据飞轮自进化、智能体风险认知等技术,为企业提供全方位、多层次的安全防护体系,让AI 智能体和大模型在安全可控的前提下释放商业价值。
四大AI风险,一个解决方案
AI时代,长亭科技”守元”应势而生,直面大模型应用中的四大核心风险:
内容安全风险: 自动识别并过滤价值观偏离、暴力、色情、仇恨言论、歧视性语言等不良内容,确保输出内容符合主流价值观与安全性。
模型越狱攻击: 防范通过精心设计的提示词绕过安全限制,诱导模型生成违规内容。
数据泄露风险: 实时检测输入输出中的敏感信息,如身份证号、银行账号、商业机密等,防止”提示词注入”攻击导致数据外泄。
不安全执行: 借助智能体执行能力突破安全边界进行未授权、不合规、破坏性的操作,形成对数字/物理世界不可逆的影响。
流式异步检测:体验与安全兼得
传统安全方案常采用”生成-全量检测-返回”模式,导致响应延迟,影响用户体验。
“守元”创新采用流式异步检测技术:在大模型生成Token流并分发的同时,实时复制到安全检测引擎进行动态研判。一旦识别风险,立即触发告警或拦截。
这意味着,在实时对话、代码生成、内容创作等高频交互场景中,用户始终能获得”即输即得”的流畅体验。
安全不会是拖慢业务的”绊脚石”,而是保障业务高速运行的”护航员”。
多模型混合检测:精准查出每一类风险
“守元”内置了大小模型混合检测体系。用户输入或模型输出首先匹配黑白名单、敏感词库和安全规则,未命中则进入混合检测阶段——多个专业模型交叉验证,综合判断后进行处置。
目前”守元”1.0版本采用轻量化动态多模型识别方案:
- 文本识别模型:包含8b、4b、0.6b三种大模型规格,基于先进开源模型后训练,适配国家标准”五大类31小类”的恶意行为分类,支持中文、英文及50多种方言和语言
- 小模型:采用RoBERTa架构,基于长亭自有80万语料对训练,具备长序列理解能力
- 多模态能力:借助多模态VL与Whisper语音模型,覆盖图片、语音、视频,可识别恶搞领导人、色情语音等复杂的多模态风险场景
此外,还包含大模型攻击行为识别模型、NER实体识别模型、黑名单识别模型等,借助DAG图编排防护能力构建起协同联动的”智能防御矩阵”。
数据飞轮自进化:客户场景千人千面
企业长期运营大模型安全,评估与防御是攻守一体的核心环节。如何通过攻守协同,实现大模型安全能力的持续迭代升级?
“守元”创新推出“数据飞轮”机制,实现自身的能力进化。
整合”矛”——长亭大模型安全评估服务,与”盾”——大模型安全围栏能力,依托模型测试全流程的数据互通,精准识别模型运行中错误拦截与错误放行,实现”守元”模型在客户落地环境中的持续更新。
如此,便产生了一个越来越适配客户业务的大模型安全围栏。守元的这种自我适配、持续进化能力,不管客户场景如何千人千面,用得越久,越可形成深度契合自身场景的专有大模型安全防护能力。
自研智能体风险认知:安全诊断全链路落地
OpenClaw等智能体在开放环境中”干活”,需要与外部工具交互,才能完成多步骤任务,其失效模式变得更加复杂。
此时的风险不再只出现在单一环节,而是贯穿输入、推理、工具调用、执行等全流程的交互过程。传统的LLM安全围栏,已经管不住智能体的新风险。
为此,长亭科技自研了一套智能体风险框架,把风险拆成 4 个关键环节:用户输入、基础模型调用、工具调用、外部服务调用,从这四个核心维度系统拆解风险链路。
同时,定义了任务意图劫持、不安全工具调用等 10 类智能体专属风险,通过对智能体全链路交互数据的深度分析,实现安全诊断的精准落地。
持续进化,与AI共成长
AI时代,唯快不破。
AI技术和应用飞速发展,”守元”也在快速迭代。随着OpenClaw智能体的风险愈演愈烈,社会开始更加重视AI应用的安全。
“守元”的”skills”安全整体检测能力已经在路上,愿为您守护AI时代的每一次智能交互。
