当社のオープンソース音声安全モデルの対応言語を追加
-
最後に、当社は数週間以内ににオープンソースの音声安全性分類器をアップデートし、さらにいくつかの追加言語でポリシー違反を検出できるようにする予定です。
-
分類器の最初のバージョン以降、英語のボイスチャットのデータではリコール率が59.1%に増加し、誤検知率は1%となっています。 これは、前回のリリースでのデータリコール率30.9%に比較して92%向上しています。
安全性とネットマナーを促進することは、常に当社のすべての業務の土台となってきました。 過去約20年にわたり、当社は強固な安全システムを構築してきましたが、新しいテクノロジーの登場とともに当社のシステムも常に進化させています。 2024年には、 保護者コントロール機能のリニューアルを含む40件以上の安全機能の強化を実施しました。 本日、またこの機能を刷新します。 また、23,000回以上 ダウンロード された業界初となるオープンソースの 音声安全分類器も発表しました。 本日、さらに精度を高くし、対応言語数も増やした 新しい バージョンをリリースします。
この分類器を含め、ユーザーを守る安全システムの多くはAI(人工知能)モデルによって支えられています。 当社がこの一部をオープンソース化しているのは、 AIの安全性における進歩を共有する ことが業界全体に利益をもたらすと認識しているからです。 先般、当社がオープンソースの安全ツールを促進することでインターネットの安全性における重要な課題に取り組むことを目的とした新しい非営利団体である ROOST に設立パートナーとして参加したのもそのためです。
毎日、世界中でプラットフォーム上で扱われる大量のコンテンツやユーザーの交流を管理する上で、AIはユーザーの安全を守るために不可欠な要素です。 構築したモデルが当社のニーズに応えるものとなることを確信しています。 例えば、2024年の第4四半期には、Robloxのユーザーは3000億件のコンテンツをアップロードしました。 数十億件の動画、音声、テキスト、ボイスチャット、アバター、3Dバーチャル空間のうち、ポリシー違反が検出されたのはわずか0.01%でした。 そして、ポリシーに違反したコンテンツのほぼすべてが、ユーザーが目にする前に自動的に事前に審査され、削除されました。
当社は、オープンソース版の音声安全分類器を更新し、より精度を高め、さらに数多くの言語でコンテンツの審査に役立つようにしました。 新しいモデルの特長は以下の通りです。
-
多言語使用のデータ訓練により、スペイン語、ドイツ語、フランス語、ポルトガル語、イタリア語、韓国語、日本語の7言語で違反を検出。
-
誤検知率が低く、全体的なデータリコール率は59.1%と、前リリースの30.9%から92%向上。
-
ピーク時には毎秒最大8,300件のリクエスト数(その大半に違反が含まれていない)を処理。
最初のモデルをリリースして以来、米国ユーザーの規約違反の報告率は、 1時間の発話につき50%以上減少しました。 また、1日あたり何百万分件分ものボイスチャットの 内容審査 を、人間の内容審査スタッフよりも正確に行うのにも役立っています。 当社は安全システムを弛まず進化させ続け、オープンソース版もアップデートし続けていきます。
効率的な多言語音声安全分類器
当社の最初のオープンソースの音声安全分類器は、WavLM base+ モデルに基づき、機械によってラベル付けされた英語のボイスチャット音声サンプルを微調整したものです。 このエンドツーエンド構造の有望な結果がさらにカスタマイズされた構造を使った実験につながりました。 当社は、知識蒸留の手法を使ってモデルの複雑さと精度を最適化しました。これは大規模な推論の提供に適しています。 当社の新しい分類器は、これらの基本的な構成要素を使用し、データ使用や構造の改良における作業規模の拡大に役立っています。
多言語でデータ訓練をすることにより、当社の単一分類器モデルは、当社が対応している使用頻度が高い8ヶ国語すべてでスムーズに機能するようになっています。 また、データ訓練の改善により、このモデルは最初のバージョンよりも精度が向上し、典型的な推論シナリオにおいて20%から30%速く実行できるようになりました。
新しい音声安全分類器は、WavLM の構造をベースにしていますが、階層の構成は、以前のリリースや WavLM の事前学習モデルで訓練されたのものとは異なっています。 特に、トランスフォーマー(変換)層における内部の時間分解能を下げるために、畳み込み層を追加しました。 当社の新しいモデル構造には、合計120,200件のパラメータがあり、前バージョンの94,600件と比較して27%増加しています。 この増加にもかかわらず、4秒から15秒の入力範囲で使用した場合、新しいモデルの計算時間は20%から30%短縮されました。 これは、このモデルが入力シグナルを従来よりも短い表現に圧縮しているためです。
多様なラベル付け戦略
エンドツーエンドモデルの「教師あり学習」には、データキュレーション済みの音声とクラス分類がセットで必要になります。 当社のデータパイプラインを大幅に改善し、分類済みデータの安定したフローを確保しました。 データ訓練の基礎となるものは、対応言語での10万時間以上の音声からなる機械によってラベル付けされた大量のデータセットです。 自動的に音声を書き起こし、それを社内のテキストベースの有害性分類器(適用させたいポリシーと有害性カテゴリを共有してある)にかけました。 データ収集では、稀なケースや一般的でないポリシー違反も効率よく検知できるようにするために無害な内容の発言よりも規約違反のあるコンテンツを高い確率で抽出しています。
音声トランスクリプトやテキストベースの分類によるラベル付けでは、音声チャットコンテンツで分かるニュアンスを完全に捉えることはできません。 そこで、人間によってラベル付けされたデータを利用して、前のデータ訓練の段階からモデルを微調整しました。 分類タスクは同じですが、後者のデータ訓練の段階は判断の境界線を詳細に明らかにし、ボイスチャット特有の表現への対応を強化するのに役立ちます。 これは、人間がラベル付けした貴重な事例を最大限に活かすためのカリキュラム学習の一形態です。
エンドツーエンドのモデルでのデータ訓練における1つの課題は、ラベル付けポリシーに変更があった場合、対象となるラベルが古くなってしまう可能性があることです。 そのため、許容可能な音声に関するポリシーを改善する場合、古いラベル付けの標準を使用するデータに対する特別な処理が必要になります。 このため、現在のボイスチャット・ポリシーと一致しないデータセットからもモデルが学習できるようにするマルチタスク・アプローチを利用しました。 これには、古いポリシー用には別の分類ヘッドを専用化し、モデルの根幹が対象となるラベルやメインヘッド(コントローラー)に影響を与えることなく、古いデータセットから学習できるようにします。
簡単に実装するのための修正モデル
分類モデルを使用するには、動作基点を決定し、分類器の感度をタスク要件に合わせる必要があります。 モデルを簡単に実装できるようにするために、ボイスチャットの内容規制用に調整されたモデル出力を修正しました。 各出力ヘッドと対応言語について別々に行い、保留にされたデータセットから区分的な線形変換を推定しました。 これらの変換はモデルの蒸留中に適用され、最終的なモデルがネイティブコードで修正されるようにしました。 これにより、推論中に後処理を行う必要がなくなりました。
当社は、この新しい オープンソースのモデル をコミュニティと共有できることを嬉しく思い、今後もアップデートを共有することを楽しみにしています。