为我们的开源语音安全模型扩展更多语言支持
-
我们计划更新开源语音安全分类器,将其参数数量从 94,600 增加到 120,200,并扩展其应用场景以支持 7 种新增语言。
-
自该分类器第一版推出以来,我们已将英语语音聊天数据的召回准确率提升至 59.1%,误报率控制在 1%。 相比上一个版本 30.9% 的召回准确率提升了 92%。
促进安全与文明一直是 Roblox 开展一切工作的初衷。 我们花费近二十年心血构建强大的安全系统,并在技术上与时俱进,不断发展与进化安全系统。 2024 年,我们共推出了超过 40 项安全改进,其中包括改进家长控制(我们将在今天再次更新)。 我们在业界首开先河,推出了语音安全分类器,其下载频次已经超过 23,000 次。 今天,我们计划发布准确度更高且支持更多种语言的更新版本。
许多帮助保护 Roblox 用户的安全系统(包括该分类器)都使用 AI 模型。 之所以将其中一部分 AI 模型开源,是因为我们深知共享 AI 安全进步成果可以推动整个行业向前发展。 基于上述原因,我们最近还以创始合作伙伴的身份加入了 ROOST。这一全新的非营利组织旨在通过推广开源安全工具来解决数字化安全领域的重要难题。
AI 是确保用户安全不可或缺的助手,帮助我们每天管理 Roblox 平台上产生的海量内容与交互。 我们相信我们构建的模型能够有效支持我们的需求。 以 2024 年第四季度为例,Roblox 用户上传的内容数量达到 3,000 亿之多。 在这些由视频、音频、文本、语音聊天、虚拟形象和 3D 体验所组成的内容之中,仅检测到 0.01% 违反 Roblox 政策的内容。 几乎所有违规内容在用户看到之前,就已被自动筛选和移除。
我们更新了开源版本的语音安全分类器,使其更加准确并能帮助我们审核不同语言的内容。 新模型:
-
使用多语言数据进行训练,新增 7 种语言的违规内容检测功能:西班牙语、德语、法语、葡萄牙语、意大利语、韩语和日语。
-
整体召回率提升至 59.1%,比上个版本的 30.9% 提升了 92%,且误报率较低。
-
针对大批量任务进行了优化,峰值时每秒可处理多达 8,300 个请求(其中大多数不包含违规行为)。
自首款模型发布以来,美国用户每小时语音的 滥用举报率降低超过 50%。 此外,还帮助我们以高于人工审核员的准确率每天审核数百万分钟的语音聊天内容。 我们从未停止改进安全系统的脚步,并将会继续更新开源版本。
高效的多语言语音安全分类器
我们最初发布的开源语音安全分类器基于 WavLM base+ 模型,使用机器标记的英语语音聊天音频样本进行微调。 这种端到端架构取得了令人鼓舞的结果,促使我们进一步试验采用自定义架构。 我们利用知识蒸馏来优化模型的复杂性与准确度,而这正是大规模推理服务十分看重的两个因素。 我们全新的分类器使用上述基本模块,通过在数据利用和架构优化方面的扩展,实现了规模与性能的双重提升。
我们的单个分类器模型使用多语音数据进行训练,可无缝检测我们首批支持的 8 种语言之中的任意一种语言。 通过改进训练方法,该模型在典型推理场景下相比第一个版本不仅准确度更高,运行速度也提升了 20%-30%。
新版语音安全分类器依然基于 WavLM 架构打造,但层配置不同于上一个版本以及经过 WavLM 预训练的模型的层配置。 具体而言,我们额外添加了一个卷积层以减少变换器层的内部时间分辨率。 新模型架构共有 120,200 项参数,相比上一个版本的 94,600 项参数增加了 27%。 尽管参数更多,新模型在检测 4-15 秒输入节段时消耗的计算时间却减少了 20%-30%。 能实现这一点是因为模型将输入信号压缩为比过去更短的表征。
利用多种标记策略
端到端模型的监管训练需要精心挑选的音频和类标签对。 我们大幅改进了数据管道,确保已标记数据流的稳定。 训练材料的基础是由支持的语言组成的一个机器标记的大型数据集,其中包含超过 100,000 个小时的语音。 我们自动转录了这些语音,再通过内部基于文本的恶意内容分类器(共享要遵循的政策和恶意内容类别)来运行转录后的语音。 该数据集抽样到滥用内容的可能性要高于友善的语音,以更有效地捕捉极端情况和更不常见的违规行为。
基于语音转录的标签和基于文本的分类并不能完全捕捉到语音聊天内容中观察到的细微差别。 因此,我们还借助了人工标记的数据来微调上个训练阶段获得的模型。 虽然分类任务相同,但后面的训练阶段可帮助优化决策边界并强调对特定于语音聊天的措辞的响应度。 这种形式的课程式学习可以帮助我们最大限度从有价值的人工标记示例中受益。
端到端模型训练面临的一项挑战是如果标记政策随时间推移发生变化,则目标标签会失去时效性。 因此,当我们完善可接受的语音政策时,需要对使用旧标签标准的数据进行特殊处理。 我们为此利用了多任务方法,允许模型从与当前语音聊天政策不匹配的数据集进行学习。 该方案需为旧策略配置独立分类头,使得模型主干能在不影响目标标签及主分类头的前提下,继续从旧数据集学习。
经过校准的模型,部署难度更低
使用该分类模型需要根据任务需求决定操作点,并匹配分类器敏感度。 简化模型部署流程,我们对输出结果进行校准,并针对语音聊天审核场景完成调优 我们基于预留数据集估算了分段线性变换,且针对每个输出头和支持的语言分别进行处理。 我们在模型蒸馏过程中应用这些变换,确保最终模型经过本地校准。 这样就不需要在推理过程中进行后处理。
我们很高兴与社区分享这一全新的开源模型,希望未来能与大家分享更多更新功能。