開放原始碼 Roblox Sentinel:我們的預先風險偵測方法
使用 AI 協助及早偵測異常聊天模式
- 每一天,都有超過 1 億名不同年齡層的玩家在 Roblox 上享有安全且正面的體驗。
- 我們致力讓系統在預設狀態下盡可能安全,尤其是對於年幼的使用者。 我們透過極為保守的政策來做到這一點,並利用 AI 來篩選在聊天中偵測到的不當訊息,包括個人可識別資訊(信任的聯絡對象以外)。 我們會主動審核內容,且不允許在聊天中分享真實世界的圖片。
- 當然,沒有任何系統是完美的,業界面臨的最大挑戰之一就是偵測重大危害,例如潛在的兒童危害。 一系列友好的聊天與支持性訊息,特別是在不同年齡層的使用者間發生這類情況時,在較長的對話紀錄中可能帶有不同的含義。
- 我們開發了一個名為 Roblox Sentinel 的對比學習 AI 系統,協助偵測誘騙等危害兒童的早期信號,讓我們能夠及早進行調查,並在適當時機向執法機構舉報。
- 在 2025 年上半年,Sentinel 協助我方團隊向美國國家失蹤及受剝削兒童中心 (National Center for Missing & Exploited Children) 提交了約 1,200 份潛在兒童剝削意圖的檢舉報告。 報告中包括嘗試規避我們的篩選機制和其他防護措施的行為。
- 我們很高興能將 Sentinel 的原始碼開放,並積極尋求社群互動,希望能協助打造更加安全的網路。
與好友共度時光並與其他玩家競爭是 Roblox 的核心要素,而通訊交流是這些活動的核心。 事實上,每天有超過 1.11 億名使用者造訪 Roblox,社群平均傳送 61 億則聊天訊息,並以數十種語言產生 110 萬小時的語音通訊交流內容。 此種通訊交流反映了真實世界,絕大多數是日常聊天,隨意交談到討論遊戲玩法皆包含在內,但少數不肖分子試圖規避我們的系統,並可能試圖造成傷害。
上個月,我們分享了依年齡別的通訊交流願景。 我們致力讓系統在預設狀態下盡可能安全,尤其是對於年幼的使用者。 例如,我們不允許使用者透過聊天功能分享圖片或影片。 我們的系統雖不完美,但會持續改善,並設計成能主動封鎖個人可識別資訊(如電話號碼與使用者名稱),並嚴格篩選未驗證年齡的使用者之間的聊天內容(且不允許 13 歲以下使用者使用聊天功能)。 Roblox 是規模最大的平台之一,使用者必須透過臉部年齡估算,才能與認識的人員更自由地聊天。 我們的目標是成為全球線上遊戲安全的領頭羊,並致力於針對關鍵的安全技術開放原始碼。
今日,我們發布了最新的開放原始碼模型 Sentinel,這是一個 AI 系統,有助於偵測可能導致兒童受到危害的互動。 Sentinel 讓我們能在事件發生前及早調查細節和偵測模式,並在適當情況下向執法當局舉報。
Sentinel 自 2024 年底開始即持續在 Roblox 上執行,是我們開放原始碼安全工具包最近加入的工具。 2025 年上半年,我們偵測到的案件中有 35% 是透過此主動方式發現,而在許多情況下,這些案件是在檢舉濫用前就已發現。 Sentinel 與我們的其他審核系統結合時,擴大了我們的工具範疇,以偵測並對這些潛在嚴重違規行為採取行動。
了解挑戰
危害兒童是整個產業所面臨的挑戰,使得新技術與開放式協作極具意義與價值。 線上誘騙(系統性地建立信任與情感連結,最終目標是剝削)本質上是一個微妙的漸進過程。 這類互動很少見,通常從一系列友好的聊天、支持性訊息和共同興趣開始。 一開始看起來無害的訊息,在較長的對話紀錄中可能帶有不同的含義。 不肖分子經常使用微妙、間接或加密的語言,即使是審核人員也很難偵測到這些模式。 因此,我們的偵測系統會不斷演變,以因應不肖分子試圖規避我方系統的新方式。 此外,用於訓練的誘騙資料很罕見,因此很難訓練機器學習系統。
主動影響力和營運洞察
Sentinel 目前已大規模投入使用。 2025 年上半年,Sentinel 主動偵測功能協助了我方團隊向美國國家失蹤及受剝削兒童中心,提交了約 1,200 份檢舉報告。 儘管我們仍有改善的空間,但 Sentinel 的早期偵測功能,已協助我們在較早的階段識別並調查潛在不肖分子,在這類訊息仍舊隱晦,且在使用者檢舉濫用前就已浮現樣貌時盡早防範。
在調查和介入 Sentinel 偵測到的案件時,人類專家的作用不可或缺。 訓練有素的分析師(通常是前中央情報局或聯邦調查局特工和其他專家)會審核 Sentinel 標記為可能違規的案件。 這些分析師所做的決定會形成一個回饋迴圈,使我們能夠持續改善並更新範例、索引和訓練集。 這種人類介入的程序極為重要,可協助 Sentinel 因應並跟進不肖分子為逃避我方偵測,而不斷演變的新模式與方法。
Sentinel 是 Roblox 大型分層安全系統的重要部分,此系統結合了創新 AI 工具和數千名人類專家。 它現在也是 Roblox 開放原始碼安全工具組的一部分。 我們相信,打造更安全的數位世界是大家共同的責任。 透過發展 Sentinel 等開放原始碼安全系統、分享我們的方法,以及成為 Robust Open Online Safety Tools (ROOST) 和 Tech Coalition 的 Lantern 計畫等組織的創始成員,我們希望能為網路安全實務的集體進展和仰賴這些實務的網路社群作出貢獻。
我們對 Sentinel 的長期願景不僅僅是對話。 使用嵌入與對比量測的原則具有高度適應性。 我們正在積極探索並開發功能,將這些技術應用於更廣泛的使用者互動,邁向跨文字、圖片、影片等多模態理解。 透過同時分析這些訊號,我們希望能更全面且深入地了解使用者行為,以便更有效地識別單一模態系統可能會錯過的潛在安全風險。
幕後技術:Sentinel 如何推動預先偵測
為了協助我們的審核系統快速採取行動,在危害的意圖擴大前,Sentinel 需要以近乎即時的方式執行完整的分析程序,每天大規模處理超過 60 億則聊天訊息。 Sentinel 會持續擷取每分鐘的文字聊天快照。 訊息會由機器學習自動分析,目的僅在於識別潛在的危害,例如誘騙或危害兒童的行為。 此外,我們會逐步彙整這些資訊,找出相關案例和模式,以便人類分析師評估和調查。
與仰靠靜態規則和標記範例的工具不同,Sentinel 使用自我監督訓練,來學習如何在通訊交流模式發生時進行識別和歸納。 如此一來,Sentinel 就能夠識別不斷演變的新興威脅。
團隊透過開發兩個索引來實現此一目標。 其中一個索引是由使用者與安全、無害訊息互動的通訊交流內容組成,稱為正面索引。 另一個索引則是我們因認定其違反兒童危害政策而移除的通訊交流內容,稱為負面索引。 這種對比方式有助於系統將資料歸納,並發現不斷演變的威脅,即使這些威脅與先前從索引中偵測到的模式不全然匹配。 Sentinel 其中一個主要優勢,在於不需要大量樣本就能運作。 考量到負面範本的發生率較低,這一點尤其重要。 我們目前的生產系統在負面索引中僅有 13,000 個範本,但仍能成功識別潛在危害。
為了打造正面索引,我們使用了精選的聊天紀錄樣本,這些樣本來自沒有違反安全相關《社群標準》紀錄,且在 Roblox 上持續、長期積極參與的使用者。 我們使用此精選的 Roblox 聊天紀錄樣本,而非一般文字資料集,因此能協助 Sentinel 學習新俚語與 Roblox 特定的語言模式和風格。 這有助於系統更準確地比較、減少誤判,並使其能夠更妥善地區分典型的 Roblox 通訊交流與違規通訊交流樣態。
負面索引是根據我們的真人審核人員所審查的對話而建立,我們在其中發現了違反兒童危害政策的明確證據(我們已採取了行動)。 使用者互動顯示出有持續性的相關活動時,我們會將這些對話的特定片段標記為有害通訊交流的範例。 這些標記的部分會轉換為嵌入向量,並新增至負面索引。 透過這項訓練,Sentinel 不只學會標記特定的字詞或片語,還會從真正意圖造成傷害的對話所遵循的語境模式和進展中學習。 因此,就算內容隱晦不明,系統也能識別出其他 AI 審核系統可能無法識別的有害通訊交流內容。
舉例來說,像是「嘿,你好嗎?」這類簡單訊息會與正面索引匹配,因為當中的語言是和善的。 像是「你來自哪裡?」這樣的訊息會與負面索引匹配,因為它與潛在誘騙對話的模式相符。 系統會將新訊息與這些索引進行比較,若發現有使用者詢問「你來自哪裡?」系統可能會開始收集更多資訊,觀察對話是否繼續朝負面方向發展。 儘管單一訊息不會受到需經由人工審核的標記,但持續性的模式則會受到標記。
對比量測
這種對比量測方法的靈感來自 SimCLR,這是一種自我監督的學習架構,使用對比量測來訓練圖像表示模型,而無需標記資料。 我們改編了這項技術,使其能夠處理文字和語音資料,讓 Sentinel 能夠理解使用者所說的內容,以及該內容如何符合或偏離已知模式。 這分為三個階段:互動評分、模式追蹤與採取行動。
衡量個別互動:每則訊息都會轉換為嵌入,或是能擷取動作語意與通訊交流特徵的向量。 Sentinel 會將此嵌入與正面與負面索引進行比較。 接著,系統會使用餘弦相似度來衡量互動與哪個索引更接近。
如果互動與負面索引中的有害模式更為一致,則會收到更高的風險指標。 系統會篩選掉與安全或有害通訊交流模式不相符的訊息,因此只關注帶有潛在訊號的互動。 這有助於減少誤判,並提高隨時間衡量互動的準確性。
追蹤具有偏態的模式,而不僅僅是平均值:不肖分子經常混合無害內容,以掩蓋自身意圖。 若只是隨著時間經過對使用者的量測值加以平均,我們想要偵測的負面訊息可能會在雜訊中消失不見。 相反地,Sentinel 會查看一段時間內的量測分布,並衡量統計偏態,這是一種偵測是否有罕見、高風險訊息將風險概況向上提高的方法。
即使大多數互動看來都無害,這也有助於我們偵測出升級為危險通訊交流的早期跡象。 在分析偏態時,我們也會修正數量。 高度活躍的使用者可能看起來風險更高,因為他們的通訊交流顯示出更多的絕對匹配數量。 強調統計偏態而非整體數量,有助於避免誤判健談但符合規範的使用者。 有了這項功能,Sentinel 不僅可以擴展而且還更精確,能夠處理大量的通訊交流量,找出罕見但關鍵的訊號,協助我們偵危害的意圖。
從訊號到行動:隨著更多互動收到衡量,系統會建立動態風險概況。 當使用者的模式與有意危害的通訊交流高度一致,或偏向該方向時,Sentinel 會觸發標記,以進行更深入的審核與調查。