Roblox Sentinel als Open Source: Unser Ansatz zur präventiven Risikoerkennung
Frühe Erkennung von anormalen Chat-Mustern durch KI
- Über 100 Millionen Nutzer aller Altersgruppen erleben täglich ein sicheres und positives Umfeld auf Roblox.
- Es ist unser Ziel, unsere Systeme standardmäßig so sicher wie möglich zu gestalten, insbesondere für unsere jüngsten Nutzer. Dies erreichen wir durch äußerst konservative Richtlinien und den Einsatz von KI, um unangemessene Chatnachrichten, wie personenbezogene Daten, herauszufiltern (ausgenommen im Kreis vertrauter Kontakte). Wir moderieren Inhalte proaktiv und gestatten nicht den Austausch von realen Bildern im Chat.
- Dennoch sind wir uns bewusst, dass kein System perfekt ist. Die Erkennung kritischer Gefahren wie der potenziellen Kindesgefährdung bleibt eine der größten Branchenherausforderungen. Eine Abfolge von freundlichen Chats kann über einen längeren Zeitraum hinweg eine andere Bedeutung annehmen, insbesondere bei Interaktionen zwischen verschiedenen Altersgruppen.
- Aus diesem Grund haben wir Roblox Sentinel entwickelt, ein KI-System, das auf kontrastivem Lernen basiert. Es hilft uns, frühe Signale von potenzieller Kindesgefährdung, wie Grooming, zu identifizieren, was uns eine frühzeitige Untersuchung und gegebenenfalls eine Meldung an die Strafverfolgungsbehörden ermöglicht.
- In der ersten Hälfte des Jahres 2025 hat Sentinel maßgeblich dazu beigetragen, dass unser Team rund 1.200 Berichte über potenzielle Versuche der Kindesausbeutung an das National Center for Missing and Exploited Children übermitteln konnte. Dies schließt auch Versuche ein, unsere Filter und Sicherheitsvorkehrungen zu umgehen.
- Wir sind begeistert, Sentinel als Open Source zu veröffentlichen, und erhoffen uns durch das Engagement der Community, einen Beitrag zur Schaffung eines sichereren Internets zu leisten.
Zeit mit Freunden zu verbringen und sich mit anderen Spielern zu messen, ist ein zentraler Bestandteil von Roblox, und Kommunikation ist das Herzstück dieser Aktivitäten. Tatsächlich kommen jeden Tag mehr als 111 Millionen Nutzer zu Roblox, wo die Community durchschnittlich 6,1 Milliarden Chat-Nachrichten sendet und 1,1 Millionen Stunden an Sprachkommunikation in Dutzenden von Sprachen generiert. Diese Kommunikation spiegelt die reale Welt wider – die überwiegende Mehrheit sind alltägliche Chats, von lockeren Gesprächen bis zur Diskussion über das Gameplay. Aber eine kleine Zahl von Übeltätern versucht, unsere Systeme zu umgehen und möglicherweise Schaden anzurichten.
Letzten Monat haben wir unsere Vision für altersbasierte Kommunikation vorgestellt. Es ist unser Ziel, unsere Systeme standardmäßig so sicher wie möglich zu gestalten, insbesondere für unsere jüngsten Nutzer. Zum Beispiel erlauben wir nicht, dass Nutzer untereinander Bilder oder Videos im Chat teilen. Unsere Systeme, obwohl sie nicht perfekt sind, werden ständig verbessert und sind darauf ausgelegt, proaktiv personenbezogene Daten – wie Telefonnummern und Benutzernamen – zu blockieren. Außerdem wird der Chat zwischen nicht altersverifizierten Nutzern stark gefiltert (und für Nutzer unter 13 Jahren gar nicht erst erlaubt). Roblox ist eine der größten Plattformen, die eine Gesichts-Altersschätzung verlangen, um freier mit Leuten zu chatten, die man schon kennt. Unser Ziel ist es, in der Online-Gaming-Sicherheit weltweit führend zu sein, und wir sind entschlossen, wichtige Sicherheitstechnologien als Open Source bereitzustellen.
Heute veröffentlichen wir unser neuestes Open-Source-Modell namens Sentinel, ein KI-System, das dabei hilft, Interaktionen zu erkennen, die potenziell zu einer Gefährdung von Kindern führen könnten. Lange bevor etwas explizit wird, ermöglicht uns Sentinel, subtile Muster frühzeitig zu untersuchen und, wenn nötig, an die Strafverfolgungsbehörden zu melden.
Sentinel läuft bereits seit Ende 2024 auf Roblox und ist die neueste Ergänzung unserer Open-Source-Sicherheitstools. In der ersten Hälfte von 2025 konnten wir 35 % der von uns erkannten Fälle dank dieses proaktiven Ansatzes entdecken, in vielen Fällen, noch bevor eine Verstoßmeldung eingereicht wurde. In Kombination mit unseren anderen Moderationssystemen erweitert Sentinel unser Werkzeugarsenal, um diese potenziell schwerwiegenden Verstöße zu erkennen und darauf zu reagieren.
Die Herausforderung verstehen
Die Gefährdung von Kindern ist eine Herausforderung für die gesamte Branche, was neue Technologien und offene Zusammenarbeit unglaublich wertvoll macht. Online-Grooming – also der systematische Aufbau von Vertrauen und emotionaler Nähe, um Kinder auszubeuten – ist von Natur aus ein sehr subtiler und langsamer Vorgang. Solche Interaktionen sind selten und beginnen oft als eine Reihe freundlicher Chats, unterstützender Nachrichten und gemeinsamer Interessen. Nachrichten, die zunächst harmlos erscheinen, können im Verlauf einer längeren Konversation eine andere Bedeutung annehmen. Übeltäter verwenden oft subtile, indirekte oder verschlüsselte Sprache, was es selbst für menschliche Prüfer schwierig macht, Muster zu erkennen. Daher entwickeln sich unsere Erkennungssysteme kontinuierlich weiter, um mit neuen Tricks Schritt zu halten, mit denen Übeltäter versuchen, unsere Systeme zu umgehen. Hinzu kommt, dass Trainingsdaten für Grooming selten sind, was es schwierig macht, maschinelle Lernsysteme zu trainieren.
Proaktive Wirkung und operative Einblicke
Sentinel ist schon im großen Maßstab im Einsatz. In der ersten Hälfte von 2025 haben die proaktiven Fähigkeiten des Modells unserem Team geholfen, etwa 1.200 Meldungen an das National Center for Missing and Exploited Children zu übermitteln. Obwohl wir kontinuierlich nach Optimierung streben, trägt Sentinel mit seiner frühen Erkennung bereits maßgeblich dazu bei, potenzielle Übeltäter zu identifizieren und zu untersuchen, noch bevor diese Verhaltensweisen offensichtlich werden und von Nutzern gemeldet werden.
Menschliche Experten sind unerlässlich, um die von Sentinel erkannten Fälle zu untersuchen und zu bearbeiten. Ausgebildete Analysten, oft ehemalige CIA- oder FBI-Agenten und andere Experten, prüfen die Fälle, die Sentinel als potenziell verstoßend markiert. Die Entscheidungen dieser Analysten bilden eine Feedbackschleife, die es uns ermöglicht, die Beispiele, Indizes und Trainingsdaten kontinuierlich zu verfeinern und zu aktualisieren. Dieser "Human-in-the-Loop"-Prozess ist entscheidend, damit Sentinel sich an neue und sich entwickelnde Muster und Methoden von Übeltätern, die versuchen, unsere Erkennungssysteme zu umgehen, anpassen und mit ihnen Schritt halten kann.
Sentinel ist ein wichtiger Teil von Roblox' größerem, mehrschichtigen Sicherheitssystem, das innovative KI-Tools und Tausende menschlicher Experten vereint. Ab heute ist es auch Teil unseres Open-Source-Sicherheitstools. Wir glauben, dass die Schaffung einer sichereren digitalen Welt eine gemeinsame Verantwortung ist. Indem wir Sicherheitssysteme wie Sentinel als Open Source bereitstellen, unsere Ansätze teilen und Gründungsmitglied von Organisationen wie den Robust Open Online Safety Tools (ROOST) und dem Lantern-Projekt der Tech Coalition werden, hoffen wir, zum kollektiven Fortschritt der Online-Sicherheitspraktiken und der Online-Communitys beizutragen, die auf sie angewiesen sind.
Unsere langfristige Vision für Sentinel reicht über Gespräche hinaus. Die Prinzipien der Verwendung von Embeddings und kontrastiver Messung sind sehr anpassungsfähig. Wir erforschen und entwickeln aktiv Fähigkeiten, um diese Techniken auf eine breitere Palette von Nutzerinteraktionen anzuwenden, und bewegen uns hin zu einem multimodalen Verständnis – über Text, Bild, Video und mehr hinweg. Durch die gemeinsame Analyse dieser Signale hoffen wir, ein ganzheitlicheres, robusteres Verständnis des Nutzerverhaltens zu erreichen, damit wir potenzielle Sicherheitsrisiken besser erkennen können, die einphasige Systeme möglicherweise übersehen würden.
Einblick in die Technologie: Wie Sentinel eine präventive Erkennung ermöglicht
Um unserer Moderation ein schnelles Eingreifen zu ermöglichen, bevor aus schädlichen Absichten Handlungen werden, führt Sentinel die vollständige Analyse-Pipeline in nahezu Echtzeit aus – bei einem massiven Volumen von über 6 Milliarden Chatnachrichten pro Tag. Sentinel erfasst Textchats fortlaufend in Ein-Minuten-Intervallen. Die Nachrichten werden automatisiert durch ML analysiert, mit dem alleinigen Fokus auf die Erkennung potenzieller Schäden wie Grooming oder Kindesgefährdung. Zusätzlich aggregieren wir diese Informationen über die Zeit, um bedenkliche Fälle und Muster zu erkennen, die dann von menschlichen Analysten bewertet und untersucht werden.
Im Gegensatz zu Tools, die auf statischen Regeln und gekennzeichneten Beispielen basieren, nutzt Sentinel ein selbstüberwachtes Training, um Kommunikationsmuster zu erkennen – und zu verallgemeinern – so wie sie auftreten. Dies ermöglicht es Sentinel, neue und sich entwickelnde Bedrohungen zu identifizieren.
Das Team hat dies durch die Entwicklung von zwei Indizes erreicht. Einer besteht aus Kommunikation von Nutzern, die sich harmlos und sicher austauschen – der positive Index. Der andere setzt sich aus Kommunikationen zusammen, die entfernt wurden, weil wir sie als Verstoß gegen die Richtlinien zur Kindesgefährdung eingestuft haben – der negative Index. Diese kontrastive Methode hilft dem System, sich weiterzuentwickeln und Bedrohungen zu finden, auch wenn sie nicht exakt zu den Mustern aus dem Index passen. Einer der Hauptvorteile von Sentinel ist, dass es nicht auf eine große Anzahl von Beispielen angewiesen ist, um zu funktionieren. Dies ist besonders wichtig angesichts der geringen Prävalenz negativer Beispiele. Unser derzeitiges Produktionssystem arbeitet mit nur 13.000 Beispielen im negativen Index und identifiziert dennoch erfolgreich potenzielle Schäden.
Um den positiven Index zu erstellen, verwenden wir eine ausgewählte Stichprobe von Chat-Verläufen von Nutzern, die keine Vorgeschichte mit sicherheitsrelevanten Verstößen gegen die Community-Standards haben und ein konsistentes, langfristig positives Engagement auf Roblox zeigen. Indem wir diese kuratierte Stichprobe aus Roblox-Chat-Verläufen anstelle von generischen Textdatensätzen verwenden, konnten wir Sentinel dabei helfen, neue Slang-Begriffe sowie Roblox-spezifische Sprachmuster und -stile zu lernen. Dies hilft dem System, genauere Vergleiche anzustellen, Fehlalarme zu reduzieren und besser zwischen typischer Roblox-Kommunikation und verstoßender Kommunikation zu unterscheiden.
Der negative Index wird aus Konversationen erstellt, die von unseren menschlichen Moderatoren überprüft wurden, in denen wir klare Beweise für Verstöße gegen die Richtlinien zur Kindesgefährdung gefunden haben (und bei denen wir bereits Maßnahmen ergriffen haben). Wenn die Interaktionen eines Nutzers anhaltende, bedenkliche Aktivitäten zeigen, kennzeichnen wir bestimmte Teile dieser Konversationen als Beispiele für schädliche Kommunikation. Diese gekennzeichneten Segmente werden in Embedding-Vektoren umgewandelt und dem negativen Index hinzugefügt. Mit diesem Training lernt Sentinel, über das bloße Melden bestimmter Wörter oder Phrasen hinauszugehen; es lernt aus den kontextuellen Mustern und Verläufen, denen Gespräche mit echter Schadensabsicht folgen. Aus diesem Grund kann das System schädliche Kommunikationen erkennen, die unsere anderen KI-Moderationssysteme möglicherweise nicht erkennen, selbst wenn sie subtil erscheinen.
Zum Beispiel würde eine einfache Nachricht wie "Hey, wie geht's?" dem positiven Index zugeordnet, da sie unbedenklich ist. Eine Nachricht wie "Woher kommst du?" würde jedoch dem negativen Index zugeordnet, da sie Mustern potenzieller Grooming-Konversationen entspricht. Das System vergleicht neue Nachrichten mit diesen Indizes. Wenn es die Frage "Woher kommst du?" erkennt, beginnt es möglicherweise, weitere Informationen zu sammeln, um den Konversationsverlauf auf eine potenziell negative Entwicklung hin zu überprüfen. Während eine einzelne Nachricht noch keine manuelle Überprüfung auslösen würde, wäre ein kontinuierliches Muster ein Grund dafür.
Kontrastive Messung
Dieser Ansatz der kontrastiven Messung ist von SimCLR inspiriert, einem selbstüberwachten Lern-Framework, das kontrastive Messung verwendet, um Bildrepräsentationsmodelle ohne gekennzeichnete Daten zu trainieren. Wir haben diese Technik angepasst, um mit Text- und Sprachdaten zu funktionieren. Dies ermöglicht es Sentinel, zu verstehen, was ein Nutzer sagt und wie es mit bekannten Mustern übereinstimmt oder davon abweicht. Dies funktioniert in drei Stufen: Interaktionsbewertung, Musterverfolgung und Handeln.
Individuelle Interaktionen messen: Jede Nachricht wird in ein Embedding umgewandelt, einen Vektor, der die semantischen und kommunikativen Merkmale der Aktion erfasst. Sentinel vergleicht dieses Embedding mit dem positiven und negativen Index. Mithilfe der Kosinus-Ähnlichkeit misst das System dann, welchem Index die Interaktion näher ist.
Wenn die Interaktion stärker mit den schädlichen Mustern im negativen Index übereinstimmt, erhält sie einen höheren Risikoindikator. Nachrichten, die weder mit sicheren noch mit schädlichen Kommunikationsmustern sinnvoll übereinstimmen, werden herausgefiltert, damit sich das System nur auf die Interaktionen konzentrieren kann, die ein potenzielles Signal tragen. Dies kann dazu beitragen, Fehlalarme zu reduzieren und die Genauigkeit der Messung von Interaktionen im Laufe der Zeit zu verbessern.
Mustererkennung durch Schiefe, nicht nur Durchschnittswerte: Die Absichten von Übeltätern werden oft durch harmlose Inhalte getarnt. Eine einfache Durchschnittsberechnung des Nutzerverhaltens würde riskante Nachrichten im Datenrauschen untergehen lassen. Stattdessen analysiert Sentinel die Verteilung der Messwerte und verwendet statistische Schiefe, um seltene, hochriskante Nachrichten zu identifizieren, die das Risikoprofil anheben.
Das hilft uns, frühzeitig Anzeichen für eine Eskalation zu erkennen, selbst wenn der Großteil der Interaktionen unbedenklich erscheint. Bei der Analyse der Schiefe korrigieren wir auch das Kommunikationsvolumen. Sehr aktive Nutzer könnten riskanter aussehen, weil ihre Kommunikation eine größere absolute Anzahl an Übereinstimmungen aufweist. Indem wir die statistische Schiefe anstelle des Gesamtvolumens betonen, können wir Fehlalarme bei gesprächigen, aber regelkonformen Nutzern vermeiden. Dadurch ist Sentinel nicht nur skalierbar, sondern auch präziser und in der Lage, riesige Kommunikationsströme zu verarbeiten, um die seltenen, aber kritischen Signale zu finden, die uns helfen, die Absicht zu schaden zu erkennen.
Vom Signal zur Handlung: Mit jeder gemessenen Interaktion erstellt das System ein dynamisches Risikoprofil. Zeigt das Muster eines Nutzers eine starke Tendenz zu schädlichen Absichten oder entwickelt sich in diese Richtung, löst Sentinel eine Markierung für eine gründliche Überprüfung und Untersuchung aus.