Unser Open-Source-Modell zur Sprachsicherheit kann jetzt noch mehr Sprachen
-
Wir aktualisieren unseren Open-Source-Sprachsicherheitsklassifikator, indem wir seine Parameter von 94.600 auf 120.200 erhöhen und ihn um sieben weitere Sprachen erweitern.
-
Seit der ersten Version des Klassifikators haben wir die Genauigkeit auf einen Recall von 59,1 % bei englischsprachigen Sprachchat-Daten bei einer Falsch-Positiv-Rate von 1 % erhöht. Dies ist eine Verbesserung von 92 % gegenüber dem Recall von 30,9 % der vorherigen Version.
Sicherheit und ein respektvoller Umgang miteinander waren schon immer die Grundlage für alles, was wir bei Roblox tun. Wir haben fast zwei Jahrzehnte damit verbracht, starke Sicherheitssysteme aufzubauen, und wir entwickeln sie kontinuierlich weiter, wenn neue Technologien verfügbar werden. Im Jahr 2024 haben wir mehr als 40 Sicherheitsverbesserungen eingeführt, darunter eine Überarbeitung unserer Kindersicherung, die wir heute erneut aktualisieren. Wir haben auch einen der ersten Open-Source-Sprachsicherheitsklassifikatoren der Branche eingeführt, der mehr als 23.000 Mal heruntergeladen wurde. Heute veröffentlichen wir eine überarbeitete Version, die noch genauer ist und in mehr Sprachen funktioniert.
Viele der Sicherheitssysteme, die zum Schutz unserer Nutzer beitragen, einschließlich dieses Klassifikators, werden von KI-Modellen betrieben. Wir stellen einige dieser Modelle als Open Source zur Verfügung, weil wir wissen, dass der Austausch von Fortschritten im Bereich der KI-Sicherheit der gesamten Branche zugutekommt. Deshalb sind wir auch Gründungsmitglied von ROOST geworden, einer neuen Non-Profit-Organisation, die sich der Entwicklung von skalierbaren und widerstandsfähigen Sicherheitstools widmet.
Bei der Verwaltung der hohen Menge an Inhalten und Interaktionen, die täglich auf unserer Plattform weltweit stattfinden, ist KI ein wesentlicher Faktor, um die Nutzer zu schützen. Wir sind zuversichtlich, dass die von uns entwickelten Modelle unsere Anforderungen unterstützen. Im vierten Quartal 2024 haben Roblox-Nutzer beispielsweise 300 Milliarden Inhalte hochgeladen. Nur 0,01 % dieser Milliarden von Videos, Audios, Texten, Sprachchats, Avataren und 3D-Erlebnissen wurden als Richtlinienverstoß erkannt. Und fast all dieser gegen die Richtlinien verstoßende Inhalt wurde automatisch vorsortiert und entfernt, bevor ihn Nutzer überhaupt zu sehen bekamen.
Wir haben die Open-Source-Version unseres Sprachsicherheitsklassifikators aktualisiert, um sie genauer zu machen und uns dabei zu helfen, Inhalte in mehr Sprachen zu moderieren. Das neue Modell:
-
Erkennt Verstöße in sieben weiteren Sprachen – Spanisch, Deutsch, Französisch, Portugiesisch, Italienisch, Koreanisch und Japanisch – dank des Trainings mit mehrsprachigen Daten.
-
Hat eine erhöhte Gesamt-Recall-Rate von 59,1 %, eine Verbesserung um 92 % gegenüber dem Recall von 30,9 % in der vorherigen Version, bei niedrigen Falsch-Positiv-Raten.
-
Ist für den Einsatz in großem Maßstab optimiert und bearbeitet in Spitzenzeiten bis zu 8.300 Anfragen pro Sekunde (wobei die meisten keine Verstöße enthalten) .
Seit der Veröffentlichung des ersten Modells haben wir bei US-amerikanischen Nutzern eine Reduzierung der Melderate von Verstößen um mehr als 50 % pro Stunde Sprachaufzeichnung festgestellt. Es hat uns auch geholfen, Millionen von Minuten Sprachchat pro Tag genauer zu moderieren als menschliche Moderatoren. Wir arbeiten ständig an der Weiterentwicklung unserer Sicherheitssysteme und werden auch die Open-Source-Version weiterhin aktualisieren.
Effizienter multilingualer Sprachsicherheits-Klassifikator
Unser erster Open-Source-Sprachsicherheitsklassifikator basierte auf einem WavLM Base+ Modell, das mit maschinell gekennzeichneten Sprachchat-Audiobeispielen in Englisch feinabgestimmt wurde. Die vielversprechenden Ergebnisse dieser End-to-End-Architektur führten zu weiterführenden Untersuchungen mit einer angepassten Architektur. Wir setzten Knowledge Distillation zur Optimierung der Modellkomplexität und -genauigkeit ein, was für Inferenzdienste im großen Maßstab von Vorteil ist. Unser neuer Klassifikator verwendet diese grundlegenden Bausteine und skaliert sowie erweitert die Arbeit in Bezug auf Datennutzung und Architekturverfeinerungen.
Durch das Training mit multilingualen Daten kann unser einzelnes Klassifikatormodell nahtlos mit allen unseren acht wichtigsten unterstützten Sprachen arbeiten. Und unsere Trainingsoptimierungen führen zu einer sowohl präziseren als auch um 20 % bis 30 % schnelleren Ausführung des Modells in einem typischen Inferenzszenario im Vergleich zur ersten Version.
Der neue Sprachsicherheitsklassifikator basiert weiterhin auf der WavLM-Architektur, die Layer-Konfiguration weicht jedoch von der vorherigen Version und den WavLM-vorabtrainierten Modellen ab. Insbesondere fügten wir einen zusätzlichen Convolutional-Layer hinzu, um die interne zeitliche Auflösung der Transformer-Schichten zu reduzieren. Insgesamt umfasst unsere neue Modellarchitektur 120.200 Parameter, eine Steigerung um 27 % gegenüber den 94.600 der Vorgängerversion. Trotz dieser Erhöhung ist der Rechenaufwand des neuen Modells um 20 % bis 30 % geringer, wenn es mit 4- bis 15-sekündigen Eingabesegmenten verwendet wird. Dies wird durch die stärkere Komprimierung des Eingangssignals durch das Modell ermöglicht.
Anwendung unterschiedlicher Labeling-Strategien
Für das überwachte Training eines End-to-End-Modells sind kuratierte Paare aus Audio- und Klassenkennzeichnungen erforderlich. Wir haben unsere Datenpipeline erheblich optimiert, um einen kontinuierlichen Strom an gekennzeichneten Daten sicherzustellen. Das Trainingsmaterial basiert auf einem umfangreichen, maschinell gekennzeichneten Datensatz von über 100.000 Stunden Sprachmaterial in den unterstützten Sprachen. Wir haben das Sprachmaterial automatisch transkribiert und mit unserem internen textbasierten Toxizitätsklassifikator analysiert, der die definierten Richtlinien und Toxizitätskategorien verwendet. Die Datenerhebung konzentriert sich mit höherer Wahrscheinlichkeit auf verstoßende Inhalte als auf unbedenkliche Sprache, um Randfälle und weniger häufige Richtlinienverletzungen besser zu erfassen.
Kennzeichnungen, die auf Sprachprotokollen und textbasierter Klassifizierung basieren, können die in Sprachchat-Inhalten beobachteten Nuancen nicht vollständig erfassen. Daher haben wir menschlich gekennzeichnete Daten verwendet, um das Modell aus der vorherigen Trainingsphase feinabzustimmen. Während die Klassifizierungsaufgabe dieselbe ist, hilft die letztere Trainingsphase, die Entscheidungsgrenzen zu verfeinern und die Reaktionsfähigkeit auf Ausdrücke zu betonen, die speziell in Sprachchats auftreten. Dies ist eine Form des Curriculum Learning, die uns hilft, den Nutzen der wertvollen menschlich gekennzeichneten Beispiele maximal auszuschöpfen.
Eine Herausforderung beim End-to-End-Modelltraining besteht darin, dass die Zielkennzeichnungen veraltet sein können, wenn sich die Kennzeichnungsrichtlinie im Laufe der Zeit ändert. Daher ist bei der Verfeinerung unserer Richtlinie für zulässige Sprache eine spezielle Handhabung von Daten erforderlich, die ältere Kennzeichnungsstandards verwenden. Hierfür haben wir einen Multitask-Ansatz verwendet, der es dem Modell ermöglicht, von Datensätzen zu lernen, die nicht mit der aktuellen Sprachchat-Richtlinie übereinstimmen. Dies beinhaltet die Bereitstellung eines separaten Klassifikationskopfes für die alte Richtlinie, wodurch der Modellstamm von dem alten Datensatz lernen kann, ohne die Zielkennzeichnungen oder den primären Kopf zu beeinflussen.
Ein kalibriertes Modell für einfachere Bereitstellung
Die Verwendung des Klassifikationsmodells erfordert die Festlegung des Arbeitspunkts und die Anpassung der Klassifikator-Sensitivität entsprechend den Aufgabenanforderungen. Um die Modellbereitstellung zu erleichtern, haben wir die Modellausgaben kalibriert, abgestimmt auf die Sprachchat-Moderation. Wir haben stückweise lineare Transformationen aus einem separaten Datensatz geschätzt, und zwar für jeden Ausgabekopf und jede unterstützte Sprache getrennt. Diese Transformationen wurden während der Modelldestillation angewendet, wodurch das finale Modell nativ kalibriert wurde. Dies machte eine Nachbearbeitung während der Inferenz überflüssig.
Wir freuen uns, dieses neue Open-Source-Modell der Community zur Verfügung zu stellen und werden zukünftige Aktualisierungen bekannt geben, sobald sie verfügbar sind.