為我們的開放原始碼語音安全模型推出更多種語言

  • 我們將更新開放原始碼語音安全分類器,將參數從 94,600 增加到 120,200,並將其擴展到其他七種語言。

  • 自從推出第一代分類器以來,我們已將英文語音聊天資料召回的準確率提高到 59.1%,誤報率則為 1%。 相較於前一版 30.9% 的召回率,此版本改善了 92%。

促進安全和禮貌向來是 Roblox 的核心基礎。 我們花費將近二十年打造強健的安全系統,也持續隨著新科技進化並推出升級的系統。 2024 年,我們推出了 40 多項安全改善功能,包括大幅改進家長監護功能,而如今又再次針對該項功能進行了更新。 我們也推出了業界首創的開放原始碼語音安全分類器,目前已有超過 23,000 次的下載量。 時至今日,我們發布更新版本,不僅準確度更高,還支援更多種語言。

包括這個分類器在內,許多用來協助保護使用者的安全系統都是由 AI 模型提供支援。 我們開放部分模型的原因,是因為我們明瞭分享 AI 安全相關進展將有利於全體產業。 這也是我們最近以創始合作夥伴的身分加入 ROOST 的原因。ROOST 是一個新的非營利組織,致力推廣開放原始碼安全工具來解決數位安全領域中的重要問題。

管理平台上每天來自世界各地的大量內容和互動時,AI 是確保使用者安全不可或缺的要素。 我們相信自行建立的模型有助於為自身需求提供協助。 例如,2024 年第四季,Roblox 使用者上傳了 3000 億項內容。 這數千億的影片、音訊、文字、語音聊天、虛擬人偶和 3D 體驗當中,系統只有偵測到 0.01% 違反了我們的政策。 而且幾乎所有違反政策的內容都在使用者看到前,由系統自動預先篩選並移除。

我們更新了語音安全分類器的開放原始碼版本,使其更加準確,並協助我們審核更多種語言的內容。 全新模型:

  • 多虧多語言資料的訓練,新模型能夠偵測七種其他語言的違規內容,包含西班牙文、德文、法文、葡萄牙文、義大利文、韓文和日文。

  • 整體召回率提高到 59.1%,相較於上一版本的 30.9%,改善了 92% 且誤報率低。

  • 經過最佳化以利大規模提供服務,尖峰時段每秒可以處理高達 8,300 個要求(絕大多數的要求中未包含違規情事)。

自從發布第一個模型以來,我們注意到美國使用者的濫用報告率有所下降 (針對每小時發言超過 50% 的使用者)。 此外,還協助我們以高於人工審核員的準確率,每天 審核 數百萬分鐘的語音聊天內容。 改進安全系統的腳步永不停止,我們也會繼續更新開放原始碼版本。

高效的多語言語音安全分類器

我們最初的開放原始碼語音安全分類器是以 WavLM base+ 模型為基礎,並透過機器標記的英文語音聊天音訊樣本進行微調。 這種端對端架構的成果令人鼓舞,促使我們進一步試驗自訂架構。 我們使用知識蒸餾來優化模型的複雜性和準確度,這對大規模推論服務來說很具吸引力。 我們的新分類器使用這些基本組建元件,並擴展資料使用和架構改進的工作。

透過多語言資料的訓練,我們的單一分類器模型可以在支援的八大語言上流暢運作。 模型經過訓練改良後,與第一個版本相比,在典型推論情境下的執行準確度更高,速度也快了 20% 到 30%。

新的語音安全分類器仍以 WavLM 架構為基礎,但層級設定與先前版本和 WavLM 預訓練模型有所不同。 特別的是,我們新增了額外一層的卷積層,以降低轉換器層的內部時間分辨度。 我們的新模型架構共有 120,200 個參數,與上一版本的 94,600 個參數相比,增加了 27%。 儘管數字增加,但新模型在使用 4 到 15 秒的輸入片段時,計算時間減少了 20% 到 30%。 這可能是因為模型將輸入訊號壓縮成比以前更短的表現形式。

利用多種標記策略

端對端模型的監督式訓練需要使用精心挑選的音訊,以及類別標籤的配對組合。 我們對資料管道進行了重大改進,確保標記資料流量穩定。 訓練資料的基礎是大型機器標記的資料集,包含超過 100,000 小時的語音所涵蓋支援的語言。 我們自動轉錄語音,並透過內部文字毒性分類器進行處理,該分類器採用相同的政策和毒性類別。 資料收集樣本對於辱罵內容的選取率高於良性對話內容,以便收集極端案例和較不常見的政策違規行為。

以語音轉錄和文字分類為基礎的標籤,無法完全捕捉語音聊天內容中所觀察到的細微差異。 因此,我們利用人工標記資料來微調先前訓練階段的模型。 雖然分類任務是相同的,但後續的訓練階段有助於改善決策界限,並強調對特定語音聊天表達的反應能力。 這是一種課程學習形式,有助於我們從人工標記的樣本中取得最大的益處。

端對端模型訓練的一大挑戰在於,標籤政策若隨著時間變更,目標標籤可能會因此而淘汰。 因此,改良可接受的語音政策時,我們需要特別處理使用舊標籤標準的資料。 為此,我們採用多任務方法,讓模型能夠從不符合目前語音聊天政策的資料集中學習。 這涉及到為舊政策專門建立一個分類總目,讓模型主幹能夠從舊資料集中學習,而不影響目標標籤或主要總目。

校正過的模型讓部署更輕鬆

使用分類模型需要決定運作點,並根據工作要求來調整分類器的敏銳度。 為有利模型部署,我們校準了模型輸出,並針對語音聊天審核進行了調整。 我們從保留的資料集中估算出逐步線性轉換,並分別針對每個輸出總目和支援的語言執行此項操作。 這些轉換在模型蒸餾期間套用,以確保最終模型已自行完成校準。 如此一來,就無須在推理過程中進行後置處理。

我們很高興能與社群分享這個新的開放原始碼模型,並期待未來能與大家分享更多最新資訊。