Inside the Tech: Sicherheitslösungen in der immersiven Sprachkommunikation
Inside the Tech ist eine Blog-Serie zu unserem Tech Talks Podcast. In Folge 20 des Podcasts, “The Evolution of Roblox Avatars“, sprach Roblox-CEO David Baszucki mit Senior Director of Engineering Kiran Bhat, Senior Director of Product Mahesh Ramasubramanian und Principal Product Manager Effie Goenawan über die Zukunft der immersiven Kommunikation durch Avatare und die technischen Herausforderungen, die es in diesem Zusammenhang zu lösen gilt. In dieser Ausgabe von Inside the Tech haben wir uns mit Senior Engineering Manager Andrew Portner unterhalten, um mehr über eine dieser technischen Herausforderungen zu erfahren: die Sicherheit in der immersiven Sprachkommunikation und wie die Arbeit des Teams dazu beiträgt, ein sicheres und ziviles digitales Umfeld für alle auf unserer Plattform zu schaffen.
Die Evolution der Roblox-Avatare
Mit Kiran Bhat, Senior Director of Engineering, Mahesh Ramasubramanian, Senior Director of Product, und Effie Goenawan, Principal Product Manager
Was sind die größten technischen Herausforderungen, denen sich das Team stellen muss?
Wir legen Wert darauf, unseren Benutzern ein sicheres und positives Erlebnis zu bieten. Sicherheit und Höflichkeit stehen für uns immer im Vordergrund, aber die Handhabung in Echtzeit kann eine große technische Herausforderung sein. Wenn es ein Problem gibt, wollen wir es überprüfen und in Echtzeit Maßnahmen ergreifen können, aber das ist angesichts unserer Größe gar nicht so einfach. Um bei dieser Größenordnung effektiv handeln zu können, müssen wir automatisierte Sicherheitssysteme einsetzen.
Eine weitere technische Herausforderung, auf die wir uns konzentrieren, ist die Genauigkeit unserer Sicherheitsmaßnahmen für die Moderation. Es gibt zwei Moderationsansätze, um Richtlinienverstöße anzugehen und genaues Feedback in Echtzeit zu geben: reaktive und proaktive Moderation. Für die reaktive Moderation entwickeln wir Modelle für maschinelles Lernen (ML), um verschiedene Arten von Richtlinienverstößen genau zu erkennen. Diese Modelle reagieren auf Meldungen von Personen auf der Plattform. Proaktiv arbeiten wir daran, potenzielle Inhalte, die gegen unsere Richtlinien verstoßen, in Echtzeit zu erkennen und die Benutzer über ihr Verhalten aufzuklären. Das gesprochene Wort zu verstehen und die Audioqualität zu verbessern, ist ein komplexer Prozess. Wir sehen bereits Fortschritte, aber unser ultimatives Ziel ist ein hoch präzises Modell, mit dem wir richtlinienwidriges Verhalten in Echtzeit erkennen können.
Welche innovativen Ansätze und Lösungen verwenden wir, um diese technischen Herausforderungen zu meistern?
Wir haben ein End-to-End-ML-Modell entwickelt, das Audiodaten analysieren kann und auf der Grundlage der Art der Richtlinienverstöße (z.B. wie wahrscheinlich es ist, dass es sich um Mobbing, Schimpfwörter usw. handelt) ein Konfidenzmodell liefert. Dank dieses Modells können wir bestimmte Meldungen jetzt viel besser automatisch abschließen. Wir werden aktiv, wenn unser Modell zuversichtlich ist und sicher sein kann, dass es besser abschneidet als der Mensch. Schon wenige Monate nach dem Start konnten wir mit diesem Modell fast alle Meldungen von englischen Beschimpfungen in Sprachnachrichten moderieren. Wir haben diese Modelle intern entwickelt. Sie sind das Ergebnis des Zusammenspiels vieler Open-Source-Technologien und unserer eigenen Arbeit, die Technik dahinter zu entwickeln.
Die Echtzeit-Bestimmung dessen, was angemessen ist, scheint ziemlich komplex zu sein. Wie funktioniert das?
Es wurde viel Wert darauf gelegt, dass das System kontextbezogen arbeitet. Wir sehen uns auch langfristige Verhaltensmuster an, bevor wir Maßnahmen ergreifen, damit wir sicher sein können, dass unsere Handlungen gerechtfertigt sind. Unsere Richtlinien sind differenziert und hängen vom Alter einer Person ab, davon, ob sie sich in einem öffentlichen Umfeld oder in einem privaten Chat befindet, und von vielen anderen Faktoren. Wir untersuchen mit der Hilfe von Machine Learning neue Wege, um in Echtzeit die Nutzung höflicher Umgangsformen zu fördern. Vor kurzem haben wir automatische Push-Benachrichtigungen (oder “Nudges“) eingeführt, um Benutzer an unsere Richtlinien zu erinnern. Wir untersuchen auch andere Faktoren wie den Tonfall, um die Absichten einer Person besser zu verstehen und Dinge wie Sarkasmus oder Scherze zu erkennen. Darüber hinaus arbeiten wir an einem mehrsprachigen Modell, da manche Personen mehrere Sprachen sprechen oder sogar mitten im Satz die Sprache wechseln. Damit das alles möglich ist, brauchen wir ein genaues Modell.
Derzeit konzentrieren wir uns darauf, die auffälligsten Formen von verbalem Missbrauch wie Belästigung, Diskriminierung und Kraftausdrücke zu bekämpfen. Diese machen den Großteil der Missbrauchsmeldungen aus. Wir wollen in diesen Bereichen einen deutlichen Einfluss haben und in der Branche Maßstäbe dafür setzen, wie die Förderung und Aufrechterhaltung einer zivilisierten Online-Konversation aussieht. Wir freuen uns, dass wir ML in Echtzeit nutzen können, um ein sicheres und zivilisiertes Erlebnis für alle zu schaffen.
Inwiefern sind die Herausforderungen, die wir bei Roblox lösen, einzigartig? Was können wir zuerst lösen?
Unser Chat mit der Spatial-Voice-Technologie schafft ein intensiveres Erlebnis, das die Kommunikation in der realen Welt nachahmt. Wenn ich zum Beispiel links von jemandem stehe, hört er mich auf seinem linken Ohr. Wir schaffen eine Analogie dazu, wie Kommunikation in der realen Welt funktioniert, und das ist eine Herausforderung, die wir sofort lösen können.
Als Gamer habe ich selbst viel Belästigung und Mobbing in Online-Spielen erlebt. Das Problem bleibt oft unbeachtet, weil Nutzer anonym sind und es keine Konsequenzen gibt. Die technischen Herausforderungen, mit denen wir uns in diesem Bereich befassen, sind jedoch in mancher Hinsicht einzigartig. Auf einigen Gaming-Plattformen beschränken sich Interaktionen beispielsweise auf Teammitglieder. Roblox bietet zahlreiche Möglichkeiten, sich in einem sozialen Umfeld zu treffen, das das echte Leben besser widerspiegelt. Durch Fortschritte im maschinellen Lernen und in der Echtzeit-Signalverarbeitung können wir Missbrauch effektiv erkennen und beheben. Das bedeutet, dass wir nicht nur eine realistischere Umgebung bieten, sondern auch eine, in der sich jeder sicher dabei fühlt, mit anderen zu interagieren und sich zu vernetzen. Die Kombination aus unserer Technologie, unserer immersiven Plattform und unserem Engagement, Benutzer über unsere Richtlinien aufzuklären, erlaubt es uns, diese Herausforderungen direkt anzugehen.
Was sind einige der wichtigsten Erkenntnisse, die du aus dieser technischen Arbeit gewonnen hast?
Ich habe viel gelernt. Ich bin kein Softwareentwickler im Bereich maschinelles Lernen. Ich habe überwiegend am Frontend in der Spieleentwicklung gearbeitet, daher war es für mich enorm wertvoll, noch tiefer als bisher in die Funktionsweise dieser Modelle einzutauchen. Ich hoffe, dass die Maßnahmen, die wir ergreifen, um die Höflichkeit zu fördern, zu einem Maß an Empathie in der Online-Community führen, das es bisher nicht gab.
Eine abschließende Erkenntnis ist, dass alles von den Trainingsdaten abhängt, die man einsetzt. Damit die Daten korrekt sind, müssen Menschen Labels für die Kategorisierung bestimmter richtlinienwidriger Verhaltensweisen festlegen. Es ist wichtig, dass man mit Daten von hoher Qualität arbeitet, die für alle funktionieren. Das ist ein wirklich schwieriges Problem, das es zu lösen gilt. Man erkennt Bereiche, in denen das maschinelle Lernen weit voraus ist, und andere, in denen es sich noch in den Anfängen befindet. Das maschinelle Lernen befindet sich noch in vielen Bereichen im Wachstum, daher müssen wir uns der Grenzen bewusst sein, die es derzeit noch gibt.
Welcher der Werte von Roblox passt am besten zu eurem Team?
Das Prinzip, die Community zu respektieren, ist während des gesamten Prozesses unser Leitwert. Zuerst müssen wir uns darauf konzentrieren, die Höflichkeit zu verbessern und Richtlinienverstöße auf unserer Plattform zu verringern. Dies hat erhebliche Auswirkungen auf die gesamte Benutzererfahrung. Zweitens müssen wir sorgfältig überlegen, wie wir diese neuen Funktionen einführen. Wir müssen darauf achten, dass das Modell keine falsch-positiven Ergebnisse liefert (z.B. etwas fälschlicherweise als Missbrauch kennzeichnet) und verhindern, dass Benutzer zu Unrecht bestraft werden. Die Überwachung der Leistung unserer Modelle und der Folgen für das Benutzerengagement ist entscheidend.
Was findest du am besten daran, wie sich Roblox und dein Team entwickeln?
Wir haben große Fortschritte bei der Verbesserung der öffentlichen Sprachkommunikation gemacht, aber es gibt noch viel zu tun. Private Kommunikation ist ein spannendes Feld, das es ebenfalls zu erkunden gilt. Ich sehe eine große Chance darin, die private Kommunikation zu verbessern. Damit könnten Benutzer sich ihren engen Freunden gegenüber normal ausdrücken, Sprachanrufe über verschiedene Erlebnisse hinweg führen oder während eines Erlebnisses mit ihren Freunden kommunizieren. Ich denke, man könnte diese Communities auch mit besseren Tools fördern, damit Benutzer sich selbst organisieren, Communities beitreten, Inhalte teilen und Ideen austauschen können.
Wie können wir unsere Chat-Technologie skalieren, um diese wachsenden Communities weiterhin zu unterstützen? Wir stehen noch ganz am Anfang dessen, was wir alles erreichen können. Ich glaube, wir könnten die Höflichkeit in der Online-Kommunikation und der Zusammenarbeit branchenweit auf eine Weise verbessern, die es bisher noch nicht gab. Mit der richtigen Technologie und den passenden ML-Fähigkeiten befinden wir uns in einer einzigartigen Position, die Zukunft der höflichen Online-Kommunikation mitzugestalten.