开源 Roblox 安全哨兵:我们的预防性风险检测方法
利用 AI 及早检测异常聊天模式
- 每天,超过一亿名各个年龄段的用户都会在 Roblox 上获得安全且积极的体验。
- 我们努力让系统在默认情况下尽可能安全,尤其是针对最年轻的用户。 为此,我们采取了极为严格的政策,并利用 AI 过滤聊天中检测到的不当信息,包括个人身份信息(受信任联系人除外)。 我们会主动审核内容,并禁止在聊天中分享现实世界的图片。
- 当然,没有任何系统是完美的,而行业中最大挑战之一就是检测潜在的重大危害,例如对儿童的潜在威胁。 一段看似友好的对话和支持性消息,在较长的聊天历史中,尤其是在不同年龄群体之间的交流中,可能会呈现出完全不同的含义。
- 我们研发了 “Roblox 安全哨兵”,这是一套基于对比学习构建的 AI 系统,可以帮助我们及早捕捉到潜在的儿童危害信号,例如诱骗行为,从而让我们更快展开调查,并在必要时向执法部门报告。
- 在 2025 年上半年,安全哨兵帮助我们的团队向美国国家失踪与受虐儿童中心(NCMEC)提交了约 1,200 份关于潜在儿童剥削企图的报告, 其中包括试图规避我们的过滤机制和其他安全防护的行为。
- 我们很高兴能将安全哨兵开源,并积极寻求社区的参与,希望能携手共建一个更安全的互联网。
与朋友共度时光、与其他玩家竞技是 Roblox 的核心组成部分,而交流正是这些活动的核心。 事实上,每天都有超过 1.11 亿用户来到 Roblox,社区平均每天发送 61 亿条聊天消息,并在数十种语言中产生 110 万小时的语音交流。 这种交流与现实世界类似——绝大多数是日常聊天,从闲聊到讨论游戏玩法,但仍有极少数不怀好意的人试图绕过我们的系统,甚至可能企图造成伤害。
上个月,我们分享了我们的基于年龄的交流愿景。 我们努力让系统在默认情况下尽可能安全,尤其是针对最年轻的用户。 比如,我们不允许通过聊天进行用户间的图片或视频分享。 我们的系统虽然并不完美,但在不断改进,并旨在主动阻止分享个人身份信息——例如电话号码和用户名。同时,未通过年龄验证的用户之间的聊天会被严格过滤(13 岁以下用户之间不允许聊天)。 Roblox 也是少数要求进行面部年龄估计,才能与认识的人更自由聊天的大型平台之一。 我们的目标是引领全球线上游戏的安全标准,并致力于将关键的安全技术开源。
今天,我们正式发布最新的开源模型安全哨兵——一套用于帮助检测可能导致儿童受到伤害的互动的 AI 系统。 在问题尚未明确化之前,安全哨兵就能帮助我们及早发现细微的信号和模式,从而提前展开调查,并在必要时向执法部门报告。
安全哨兵自 2024 年底起已在 Roblox 上运行,是我们开源安全工具库中的最新成员。 2025 年上半年,我们检测到的案例中有 35% 归功于这种主动式方法,很多情况下甚至在用户提交滥用举报之前就已拦截。 结合其他审核系统,安全哨兵进一步扩展了我们检测并处理这些潜在严重违规行为的工具阵容。
了解挑战
儿童安全风险是整个行业都面临的挑战,这使得新技术和开放合作显得尤为宝贵。 线上诱骗,即通过系统性建立信任与情感联系,以剥削为最终目的的行为——其本质是一个隐蔽且循序渐进的过程。 此类互动虽属少见,但往往以一系列友好的聊天、支持性的消息和共同兴趣为开端。 那些最初看似无害的消息,随着对话时间的延长,可能会呈现出完全不同的含义。 不法分子通常会使用隐晦、间接或暗码式的语言,有意让其行为模式难以被发现,即使是人工审核也难以察觉。 因此,我们的检测系统会不断演进,以跟上不法分子规避机制的最新手段。 除此之外,用于训练诱骗检测模型的数据也极为稀缺,这为机器学习系统的训练带来了额外难度。
主动成效与运营洞察
安全哨兵(Sentinel) 目前已在大规模生产环境中运行。 2025 年上半年,其主动防护能力帮助我们的团队向 美国国家失踪与受虐儿童中心(NCMEC)提交了约 1,200 份报告。 虽然我们始终还有改进空间,但安全哨兵的早期检测能力,已经能在交流仍较隐晦、尚未被用户举报之前,更早识别并调查潜在的不法分子。
人工专家在调查和干预安全哨兵检测到的案例中至关重要。 经过专业培训的分析员——通常是前 CIA、FBI 特工或其他领域专家——会审查安全哨兵标记为潜在违规的案例。 这些分析员的判断会形成一个反馈循环,使我们能够持续优化和更新案例示例、索引以及训练数据集。 这种 人机协同(human-in-the-loop) 流程对于帮助安全哨兵适应并跟上不法分子规避检测的新模式和新方法至关重要。
安全哨兵是 Roblox 更大规模分层安全体系的重要组成部分,该体系融合了创新的 AI 工具与数千名人工专家。 如今,它也成为了 Roblox 开源安全工具包的一部分。 我们相信,构建更安全的数字世界是共同的责任。 通过将安全哨兵等安全系统开源、分享我们的技术方法,并作为 Robust Open Online Safety Tools(ROOST)和 Tech CoalitionLantern 项目等组织的创始成员,我们希望为在线安全实践以及依赖这些实践的网络社区的共同进步做出贡献。
“如今,许多平台缺乏识别和预防网络危害所需的先进工具,尤其是在防范针对儿童的风险方面。 ROOST 坚信,任何致力于保护用户的平台都应该能够获得强有力的安全防护措施。我们非常高兴 Roblox 能为信任与安全领域贡献更多可开放获取的工具。”
我们的长期愿景是将“安全哨兵”的能力扩展到对话之外。 使用嵌入(embedding)与对比度衡量(contrastive measuring)的原理具有高度适应性。 我们正在积极探索并开发相关功能,将这些技术应用到更广泛的用户互动中,朝着多模态理解的方向迈进——覆盖文本、图像、视频等多种形式。 通过对这些信号进行综合分析,我们希望能够更全面、更稳健地理解用户行为,从而更好地识别单一模态系统可能遗漏的潜在安全风险。
技术揭秘:安全哨兵如何实现预防性检测
为了让我们的内容审核系统能够在危害意图真正付诸行动之前快速反应,安全哨兵需要在接近实时的情况下运行完整的分析流程——以海量规模,每天覆盖超过 60 亿条聊天消息。 Ask ChatGPT 安全哨兵会持续以一分钟为间隔捕获文本聊天, 并利用机器学习自动分析这些信息,唯一目的就是识别潜在危害,例如诱骗或危害儿童的行为。 除此之外,我们还会对这些信息进行长期聚合,找出令人担忧的案例与模式,供人工分析员评估和调查。
不同于依赖静态规则和人工标注样本的工具,安全哨兵采用自监督训练,能够在交流发生时学习、识别并泛化沟通模式。 这让它可以发现新的和不断演变的威胁。
团队通过开发两个索引实现了这一点: 一个由与安全、良性信息交互的用户通信组成,即正向索引; 另一个由因违反危害儿童政策而被移除的通信组成,即负向索引。 这种对比式方法帮助系统在不完全匹配历史负面通信模式的情况下,也能泛化识别不断演变的威胁。 安全哨兵的一大优势是它不需要大量示例才能发挥作用, 这在负面示例稀少的情况下尤其重要。 目前,我们的生产系统在负向索引中仅使用约 13,000 条示例,依然能够成功识别潜在危害。
正向索引
为了构建正向索引,我们使用了经过筛选的聊天记录样本,这些记录来自在 Roblox 上没有任何与安全相关的社区标准违规历史,并且长期保持积极互动的用户。 相比使用通用文本数据集,利用这种经过精挑细选的 Roblox 聊天记录样本,可以帮助安全哨兵学习新的俚语以及 Roblox 特有的语言模式和风格。 这有助于系统进行更精准的比较,减少误判,并更好地区分典型的 Roblox 交流与违规交流。
负向索引
负向索引由我们的人工审核员审查过的对话构成,这些对话中存在明确的危害儿童政策违规证据(并且我们已对此采取了措施)。 当某位用户的互动中持续出现令人担忧的行为时,我们会将对话中的特定片段标记为有害交流示例。 这些被标记的片段会被转换为嵌入向量,并加入到负向索引中。 通过这种训练,安全哨兵学会的不只是标记特定的词语或短语,而是能够从真实意图伤害的对话中学习其上下文模式和发展过程。 由此,系统甚至能识别出其他 AI 审核系统可能忽略的、有害但表现得很隐晦的交流。
例如,“Hey, how are you?” 这样的简单消息会与正向索引匹配,因为其语言是良性的 而。 “Where are you from?” 则会与负向索引匹配,因为它符合潜在诱骗对话的模式。 系统会将新消息与这些索引进行比对,如果它发现某位用户问了 “Where are you from?”,就可能开始收集更多信息,观察对话是否会沿着负面路径继续发展。 虽然单条消息不足以触发人工复核,但如果这种模式持续出现,就会被标记并交由人工分析员处理。
对比度衡量
这种对比度衡量方法的灵感来自 SimCLR,一种自监督学习框架,它利用对比度衡量来训练无需标注数据的图像表征模型。 我们将这一技术改造后应用于文本与语音数据,使安全哨兵能够理解用户所说的内容,以及这些内容与已知模式的一致性或偏离程度。 整个过程分为三个阶段:交互评分、模式跟踪、采取行动。
衡量单次交互每条消息都会被转换为一个嵌入向量,用于捕捉该行为的语义特征和交流特征。 安全哨兵会将该嵌入与正向索引和负向索引进行比较, 并使用余弦相似度测量该交互更接近哪一个索引。
如果交互更符合负向索引中的有害模式,它就会获得更高的风险指标。 不明显符合安全或有害交流模式的消息会被过滤掉,以便系统专注于那些具有潜在风险信号的交互。 这有助于减少误报,并在长期内提升交互衡量的准确性。
用偏度而非均值来跟踪模式不法分子经常会将真实意图夹杂在无害内容中进行掩饰。 如果我们只是简单地对用户的风险分数取平均值,想要检测到的负面消息可能会被“噪音”淹没。 安全哨兵会查看一段时间内风险测量的分布情况,并计算统计“偏度”——一种检测是否存在罕见的高风险消息将整体风险水平拉高的方法。
这能帮助我们在大部分互动看似无害的情况下,提前发现交流正朝危险方向升级的早期信号。 在分析偏度时,我们还会对消息量进行校正。 活跃用户由于交流量大,可能会显示出更多绝对数量的匹配,从而看起来更具风险。 通过强调统计偏度而非总量,我们可以避免将健谈但合规的用户误判为高风险。 这样一来,安全哨兵不仅具备可扩展性,还能更加精准地处理海量交流数据,从中发现稀少但关键的信号,以帮助检测伤害意图。
从信号到行动随着被衡量的交互不断增加,系统会逐步构建动态风险画像。 当某位用户的交流模式与有害交流意图高度一致,或其偏度趋势正朝该方向发展时,安全哨兵会触发标记,进入更深入的复核与调查阶段。