みまもり機能、ロブロックス・センティネルをオープンソース化: 当社の早期リスク検出の取り組み

AIを使用して危険なチャットパターンを早期検出

  • Roblox(以下、ロブロックス)では、1億人以上のあらゆる年齢層のユーザーが毎日、安全でポジティブな体験を楽しんでいます。
  • 特に低年齢層のユーザーのために当社のシステムを初期設定で可能な限り安全にするよう努めています。 当社は極めて保守的なポリシーを採用し、AI(人工知能)を活用してチャットにフィルターを使用して不適切なメッセージを検出しています。これには、個人識別情報も含まれます(信頼できるつながりを除きます)。 当社は積極的にコンテンツを監視し、チャット経由で現実世界での画像の共有を許可していません。
  • もちろん、完璧なシステムは存在しません。この業界における最大の課題の一つは、潜在的に子供を危険にさらす行為のような重大な危害の検出です。 違う年齢層のユーザー間で交わされるフレンドリーなチャットや励ますようなメッセージも、長い会話履歴の中で違う意味を持つようになる可能性があります。
  • そこで、当社は対照学習を基盤としたAIシステムによるみまもり機能、Roblox Sentinel(ロブロックス・センティネル、以下、みまもり機能)を開発しました。このシステムは、グルーミング(信頼を装い未成年に接近する行為)など、子供を危険にさらす可能性のある行為の早期兆候の検出を支援し、早期に調査を開始し、必要に応じて警察当局に通報できるようにします。
  • 2025年前半、みまもり機能を使用して当社のチームは、全米行方不明・被搾取児童センター(NCMEC)に、児童搾取の疑いのあるケースに関する約1,200件の報告を提出しました。 これには、当社のフィルター機能やその他の安全対策機能を回避する試みも含まれます。
  • 当社は、 みまもり機能をオープンソースとして公開することを嬉しく思います。また、当社は積極的にコミュニティの参加を促しており、さらに安全なインターネット環境づくりに役立つことを期待しています。

友達と一緒に過ごし、他のプレイヤーと競争することは、ロブロックスの中心的な要素であり、このような活動の中心にコミュニケーションがあります。 実際、1億1,100万人以上のユーザーが毎日ロブロックスにアクセスし、コミュニティからは平均61億件のチャットメッセージが送信され、数十ヶ国語で110万時間の音声通信をしています。 このコミュニケーションは現実の世界を反映しています。ほとんどは日常的な会話であり、気軽なおしゃべりからゲームプレイの話題まで多岐にわたります。しかし、少数ながら悪質な違反者が当社のシステムを回避しようとし、危害を与える可能性のある行為を試みることがあります。

先月、 当社の 年齢に応じたコミュニケーションのビジョン を発表しました。 特に低年齢層のユーザーのために当社のシステムを初期設定で可能な限り安全にするよう努めています。 例えば、チャット経由でのユーザー間の画像やビデオの共有は許可していません。 当社のシステムは完璧ではありませんが、継続的に改善されており、電話番号やユーザーの名前などの個人識別情報を積極的にブロックするように設計されており、  年齢確認していないユーザー 間でのチャットは厳重にフィルターをかけています(13歳未満のユーザーには許可されていません)。 ロブロックスは、知り合いのユーザーとより自由にチャットするために顔年齢推定を行う必要がある最大規模のプラットフォームの一つです。 当社の目標は、オンラインゲームにおける安全性の分野で世界をリードすることであり、 重要な 安全技術オープンソース化 に全力で取り組んでいます。

本日、当社は最新のオープンソースモデルのみまもり機能、 センティネルをリリースします。これは、子供を危険にさらす可能性のある交流を検出するAIシステムです。 みまもり機能は、問題が表面化する前の段階で微妙な兆候を調査し、早期にパターンを検出することができ、必要に応じて警察当局に通報します。

みまもり機能は、2024年後半からロブロックス上で稼働しており、当社のオープンソース安全ツールキットにある最新の追加機能です。 2025年前半に当社が検出したケースの35%は、この積極的なアプローチによるもので、多くの場合、違反の報告が提出される前に検出されています。 他の内容審査システムと組み合わせることができるみまもり機能によって、このような潜在的に重大な違反の検出と対応に当社が使用できるツールの幅が広がりました。

課題を理解する

子供を危険から守ることは業界全体における課題であり、この分野での新しいテクノロジー開発とオープンな協働は非常に貴重なものです。 オンラインでのグルーミング、つまり最終的な搾取を目的として信頼と感情的なつながりを体系的に築く行為は、その性質上、巧妙で段階的なプロセスです。 このようなやり取りは稀ですが、フレンドリーなチャットや励ますようなメッセージや共通の話題などから始まることが多いです。 最初は無害に見えるメッセージも、長い会話履歴の中で違う意味を持つようになることがあります。 悪質な違反者は、意図的にパターンを検出しにくくするため、巧妙で間接的な表現や暗号化された言語を使用するため、内容審査スタッフにも検出が難しくなっています。 悪質な違反者がシステムを回避しようとする新たな手法に対応するため、当社の検出システムを継続的に進化させています。 また、グルーミングの訓練データは希少であるため、機械学習システムを訓練することは困難です。

先駆的取り組みによる効果と運用に関する見地

現在、みまもり機能は公開中のコンテンツで稼働中です。 2025年上半期には、この積極的な検知機能によって、当社チームは全米行方不明・被搾取児童センター(NCMEC)に約1,200件の報告を行いました。 みまもり機能の早期検出機能には改善の余地が常にありますが、ユーザーが提出する規約違反の報告を表面化する前に、メッセージの内容が微妙な段階で潜在的に悪質な違反者を早期に特定し調査できるようにサポートしています。

専門家は、みまもり機能が検出するケースの調査と対応に不可欠です。 訓練を受けたアナリスト(通常、元CIAまたはFBIのエージェントおよびその他の専門家)は、みまもり機能が潜在的な違反としてフラグを立てたケースを審査します。 アナリストが下す判断からフィードバックループを作り、事例や分類基準、トレーニングセットを継続的に精査し、更新できるようにします。 ループのプロセスに人的審査を入れることは、悪質な違反者によって新しく生み出されるパターンや検出回避手法にみまもり機能が対応するのに不可欠です。

みまもり機能は、革新的なAIツールと数千人規模の専門家を組み合わせたロブロックスの 多重構造安全システムの重要な要素です。 本日より、みまもり機能(センティネル)は当社のロブロックス・オープンソース安全ツールキットの一部となります。 より安全なデジタル世界を実現することは、共通の責任であると当社は考えています。 みまもり機能のような安全システムをオープンソース化し、当社のアプローチを共有し、Robust Open Online Safety Tools(ROOST)や Tech CoalitionLantern プロジェクトなどの組織の創設メンバーになることで、オンラインの安全慣行全体における進歩と、オンラインコミュニティの向上に貢献したいと考えています。

みまもり機能の長期的なビジョンは、会話だけに留まりません。 埋め込みと対比測定の原則は、対応能力が高いものです。 当社は、このような技術をより幅広いユーザー交流に適用するための機能の開発を積極的に進めており、テキストや画像、ビデオなど多様な形式で複数の異なる情報源を組み合わせて理解するマルチモーダル解析を目指しています。 これらのシグナルを統合して分析することで、単一モダリティシステムが見逃す可能性のある潜在的な安全リスクをより正確に特定できるよう、ユーザーの行動を俯瞰して深く理解できるよう努めています。

テクノロジーの舞台裏: みまもり機能「センティネル」による早期検知

当社の内容審査システムが迅速に対応できるようにするため、危害を加えようとする意図が実行に移される前に、みまもり機能はほぼリアルタイムで60億件以上のチャットメッセージを毎日処理し、大規模な分析プロセスを実行する必要があります。  みまもり機能は、1分ごとのスナップショットでテキスト形式のチャットを継続的に集めます。 メッセージは機械学習によって自動的に分析され、グルーミングや子供を危険にさらす行為などの潜在的な危害を特定することを唯一の目的としています。 さらに、この情報を時間の経過とともに集約し、懸念されるケースやパターンを特定し、人間のアナリストが評価・調査できるようにしています。

固定ルールと分類されたケースに依存するツールとは異なり、みまもり機能は「自己教師あり訓練」を活用し、通信パターンが発生する場合に検出と一般化の方法を学習します。 これによって、みまもり機能は新しい進化型の脅威を検出することができます。

チームは、二つの指標を作ってこれを実行しました。 一つは、安全で無害なメッセージをやり取りするユーザーからの通信内容で構成される「ポジティブ指数」です。 もう一つは、当社が過去に子供を危険にさらす行為を防ぐポリシーへの違反と判断して削除した通信内容で構成される「ネガティブ指数」です。 この対比手法によって、システムは指標に記録された過去の通信パターンと完全に一致しなくても、進化していく脅威を一般化して検出することが可能になっています。 みまもり機能の主な利点の一つは、使えるようにするために膨大な例示データを必要としないことです。 これは、ネガティブな例示データがあまりない場合に特に重要です。 現在、公開中のシステムは、ネガティブ指標にわずか13,000件の例示データしか含まれていないにもかかわらず、潜在的な危害を適切に特定しています。

ポジティブ指標を作成するには、コミュニティ基準で安全に関する違反歴がなく、ロブロックスで一貫して長期にわたるポジティブなエンゲージメントをしてきたユーザーのチャット履歴から厳選されたデータサンプルを使用しています。 一般的なテキストデータセットではなく、ロブロックスのチャット履歴からの厳選されたサンプルを使用することで、みまもり機能が新しい俗語やロブロックス固有の言語パターンと文体を学習できるようにしました。 これによって、システムがより正確な比較を行うことができ、誤検知を減らし、通常のロブロックスでの通信内容と違反行為を含む通信内容を区別する能力が向上します。

ネガティブ指標は、当社の内容審査スタッフが審査した会話内容で構築されており、子どもを危険にさらす行為を防止するポリシーへの違反を示す明確な証拠が確認されたケース(すでに措置を講じたもの)が含まれています。 ユーザーのやり取りに継続的に懸念される活動が確認された場合、その会話の特定の部分を有害な通信内容の例として分類します。 分類された部分は、埋め込みベクトルに変換され、ネガティブ指標に追加されます。 このトレーニングによって、みまもり機能は特定の単語やフレーズをフラグ付けするだけでなく、実際に危害を加える意図のある会話に含まれる文脈的なパターンや流れを学習します。 これによって、システムは他のAI駆動の内容審査システムが検出できない微妙で有害な通信内容を認識できるようになっています。

例えば、「こんにちは。元気ですか?」というような単純なメッセージは、内容が無害であるため、ポジティブ指標に合致します。 「どこから来たの?」というようなメッセージは、潜在的にグルーミングで使われる会話のパターンと一致するため、ネガティブ指標に合致します。 システムは、新しいメッセージを指標と照らし合わせ、ユーザーが「どこから来たの?」と聞いた場合、会話がネガティブな方向に進むかどうかを確認するために、より多くの情報を集め始めるかもしれません。 1つのメッセージだけでは、人的審査の対象にはなりませんが、継続的なパターンがあれば対象となります。

対比測定

この対比測定の手法は、分類表示データなしで画像表現モデルを訓練するために対比測定を使う自己教師あり学習の枠組みである SimCLR から着想を得たものです。 この技術をテキストと音声データに対応するように適応させ、みまもり機能がユーザーの発言内容を理解し、それが既知のパターンと一致するかしないかを判断できるようにしました。 このプロセスには、交流評価、パターン追跡、行動の3つの段階があります。

個別の交流の測定: 各メッセージは、行動の意味と通信内容の特性を捉える埋め込みまたはベクトル(数値配列)に変換されます。 みまもり機能は、この埋め込みをポジティブ指標とネガティブ指標と比較します。 コサイン類似度を用いて、システムは交流内容がどちらの指標に近いかを測定します。

ネガティブ指標にある有害なパターンと親和性が高い交流内容には、より高いリスク指標が割り当てられます。 通信内容のパターンが安全なものとも有害なものとも有意な一致が見られないメッセージは、フィルターをかけられ、システムは潜在的なシグナルを含む交流内容にのみ焦点を当てることができます。 これは、時間の経過とともに誤検知を減らし、交流の測定精度の向上に役立ちます。

平均値だけでなく歪度を用いてパターンを追跡: 悪質な違反者は、無害なコンテンツの中に意図を隠すことがあります。 ユーザーの測定値を時間経過とともに単純に平均化してしまうと、検出したいネガティブなメッセージがノイズに埋もれてしまう可能性があります。 みまもり機能は、かわりに時間経過に伴う測定値の分布を分析し、統計的な歪度を測定します。これは、リスクプロファイルを上げる稀な高リスクメッセージが含まれているかどうかを検出する方法です。

これによって、やり取りの大半が安全に見えても、危険な通信内容にエスカレートしていく早期兆候を検出できます。 歪度を分析する場合、通信量も補正します。 非常に活発なユーザーは、通信内容に絶対的な一致件数が多いため、リスクが高いように見えるかもしれません。 全体的な通信量よりも統計的な歪度を強調することで、規則を遵守するチャット頻度の高いユーザーに関する誤検知を回避できます。 これによって、みまもり機能は拡張性に優れているだけでなく、より正確で、膨大な通信内容の流れを処理し、危害を加えようとする意図を検出するのに役立つ稀で重要なシグナルを見つけることができるようになっています。

シグナルから行動へ: 交流内容が増えるにつれ、システムは動的なリスクプロファイルを構築します。 ユーザーの行動パターンが危害を加える意図を示す通信内容と強く一致する場合、またはその方向への偏りが認められる場合、みまもり機能は詳しい審査と調査を要請するフラグを立てます。