Les coulisses de la technologie – La sécurité dans les communications vocales immersives

Par Roblox

Publié 18 janv. 2024

Les coulisses de la technologie sont une série d'articles qui accompagnent notre podcast « Tech Talks ». Dans l'épisode 20 du podcast, consacré à l'évolution des avatars Roblox, David Baszucki, PDG de Roblox, s'est entretenu avec Kiran Bhat, directeur senior de l'ingénierie, Mahesh Ramasubramanian, directeur produit senior, et Effie Goenawan, responsable principale produit, au sujet de l'avenir de la communication immersive via les avatars, et des défis techniques que nous devons relever dans ce domaine. Dans cette édition des coulisses de la technologie, nous avons interrogé Andrew Portner, responsable senior de l'ingénierie, au sujet de ces défis, de la sécurité dans les communications vocales immersives, et du travail que l'équipe accomplit pour proposer un environnement numérique sûr et civil sur l'ensemble de notre plateforme.

Quels sont les plus gros défis techniques auxquels votre équipe est confrontée ?

Notre priorité est d'offrir une expérience sûre et positive à nos utilisateurs. La sécurité et la civilité sont toujours ce qu'il y a de plus important pour nous, mais c'est quelque chose qui peut être très difficile à gérer en temps réel du point de vue technique. Quand il y a un problème, nous voulons pouvoir l'examiner et agir en temps réel, or la taille de notre plateforme rend l'opération très complexe. Pour pouvoir fonctionner efficacement à une telle échelle, nous avons besoin de systèmes de sécurité automatisés.

L'autre défi, c'est d'améliorer la précision de la modération. Il y a deux approches pour réagir aux infractions et donner des retours en temps réel : la modération réactive, et la modération proactive. Pour la modération réactive, nous développons des modèles d'apprentissage automatique capables d'identifier les différents types d'infractions en réponse aux signalements des utilisateurs de la plateforme. Pour la modération proactive, nous travaillons sur un système de détection en temps réel du contenu ne respectant pas nos politiques afin d'éduquer les utilisateurs et de les aider à améliorer leur comportement. Comprendre les paroles prononcées et améliorer la qualité audio, c'est un processus compliqué. Nous avons déjà fait des progrès, mais notre objectif est d'obtenir un modèle de haute précision capable de détecter en temps réel les comportements non conformes à nos politiques.

Quelles sont les approches et solutions innovantes auxquelles nous faisons appel pour relever ces défis techniques ?

Nous avons développé un modèle d'apprentissage automatique de bout en bout qui analyse les données audio et donne un niveau de confiance pour le type d'infraction (par exemple, quelle est la probabilité que l'on ait affaire à du harcèlement, des grossièretés, etc.). Ce modèle a considérablement amélioré notre capacité à traiter automatiquement certains signalements. Nous prenons des mesures quand notre modèle est sûr de lui et d'être plus performant qu'un humain. Quelques mois seulement après la mise en place de ce système, nous avons pu traiter la plupart des signalements du chat vocal en anglais avec ce modèle. Nous avons développé ces modèles en interne en associant des technologies en open source à nos propres travaux.

Déterminer ce qui est approprié ou non en temps réel, ça a l'air très compliqué. Comment ça marche ?

Nous avons beaucoup réfléchi à la façon dont nous pouvions permettre au système de comprendre le contexte. Nous observons également les comportements sur la durée avant d'agir afin de nous assurer que les mesures que nous prenons sont appropriées. Nos politiques sont nuancées selon l'âge de la personne, la situation (espace public ou chat privé) et bien d'autres facteurs. Nous explorons de nombreuses façons de promouvoir la civilité en temps réel, et l'apprentissage automatique est au cœur de toutes ces idées. Nous avons récemment mis en place des notifications automatiques pour rappeler nos politiques aux utilisateurs. Nous examinons également d'autres facteurs comme le ton de la voix pour mieux comprendre les intentions et détecter le sarcasme ou les plaisanteries. Enfin, nous sommes en train de travailler sur un modèle multilingue, étant donné que certains utilisateurs parlent plusieurs langues, et peuvent même en changer au milieu d'une phrase. Pour pouvoir faire tout cela, nous avons besoin d'un modèle fiable.

À l'heure actuelle, nous nous concentrons sur les infractions les plus graves, comme le harcèlement, la discrimination et les grossièretés. Elles représentent la majorité des signalements. Notre objectif est d'avoir un impact significatif dans ces domaines et de mettre en place des normes à l'échelle du secteur pour faire en sorte que les conversations en ligne soient toujours civiles. Nous sommes très optimistes quant au potentiel de l'apprentissage automatique en temps réel, qui nous aide à offrir un environnement sûr et civil à tous nos utilisateurs.

Qu'est-ce qui rend les défis auxquels Roblox est confronté uniques ? Quels sont ceux que nous pouvons relever avant tout le monde ?

Notre technologie de chat avec voix spatiale offre une expérience immersive qui imite les conversations du monde réel. Si, par exemple, je me trouve à gauche d'une personne, elle m'entendra dans son oreille gauche. Nous essayons de reproduire le fonctionnement des communications dans le monde réel, et c'est un défi que nous sommes capables de relever avant tout le monde.

En tant que joueur, j'ai souvent été témoin de harcèlement en ligne. C'est un problème très difficile à résoudre en raison de l'anonymat et de l'absence de conséquences. Cependant, les défis techniques auxquels nous sommes confrontés à l'heure actuelle sont uniques de par certains aspects. Sur certaines plateformes de jeu vidéo, les interactions ne se font qu'entre membres d'une équipe. Roblox propose différentes façons de passer du temps dans un environnement social qui ressemble davantage à la vie réelle. Avec les avancées en matière d'apprentissage automatique et de traitement des signaux en temps réel, nous pouvons détecter les comportements abusifs et y réagir, ce qui signifie qu'en plus d'être réaliste, notre environnement est aussi plus sûr pour tout le monde. Avec notre technologie, notre plateforme immersive et notre engagement à éduquer les utilisateurs au sujet de nos politiques, nous sommes dans une position idéale pour relever tous ces défis.

Quels sont les principaux enseignements que vous avez tirés de ce travail technique ?

J'ai le sentiment d'avoir appris énormément de choses. Je ne suis pas un spécialiste de l'apprentissage automatique. J'avais surtout de l'expérience avec l'aspect « front end » du jeu vidéo, et c'était très intéressant de découvrir comment ces modèles fonctionnent. J'espère que nos actions pour promouvoir la civilité donneront naissance à une plus grande empathie dans les communautés en ligne, qui en ont bien besoin.

J'ai aussi appris que tout dépend des données d'entraînement. Pour que ces données soient correctes, il faut que les humains se mettent d'accord sur les étiquettes utilisées pour catégoriser les différents comportements contraires à nos politiques. Il est essentiel de disposer de données d'entraînement de qualité qui mettent tout le monde d'accord. C'est un problème très complexe. On commence à voir des domaines dans lesquels l'apprentissage automatique fait mieux que tout le reste, et d'autres où il en est encore à ses balbutiements. C'est une technologie qui est encore en plein essor, et il est important d'être conscient de ses limites.

Quelles sont les valeurs de Roblox qui représentent le mieux votre équipe ?

Le respect de la communauté est la valeur qui nous guide dans notre travail. Premièrement, nous devons nous efforcer d'améliorer la civilité et de réduire la quantité d'infractions aux politiques sur notre plateforme. C'est quelque chose qui a un impact significatif sur l'expérience des utilisateurs. Deuxièmement, nous devons bien réfléchir à la façon dont nous déployons ces nouvelles fonctionnalités. Nous devons faire attention aux faux positifs (les comportements considérés comme des infractions alors qu'ils n'en sont pas réellement) dans le modèle, et éviter de sanctionner injustement les utilisateurs. Il est essentiel d'évaluer les performances de nos modèles et leur impact sur l'expérience des utilisateurs.

Quand vous pensez à l'avenir de votre équipe et de Roblox, qu'est-ce qui vous enthousiasme le plus ?

Nous avons considérablement amélioré les communications vocales publiques, mais il y a encore beaucoup à faire. Les communications privées sont un domaine intéressant. Je pense qu'il y a beaucoup de choses à améliorer pour permettre aux utilisateurs de s'exprimer avec leurs amis, ou encore de discuter en étant dans des expériences différentes ou pendant diverses interactions. Nous pouvons également offrir aux communautés de nouveaux outils qui les aideront à s'organiser et à partager du contenu et des idées.

Notre plateforme continue de s'agrandir ; comment adapter notre technologie de chat pour accueillir cette communauté toujours plus vaste ? Nous commençons tout juste à entrevoir les possibilités qui s'offrent à nous, et je crois que nous avons le potentiel d'améliorer la civilité dans les communications en ligne et de mettre en place des collaborations d'une ampleur inédite sur l'ensemble du secteur. Avec la bonne technologie et les bons outils d'apprentissage automatique, nous sommes idéalement positionnés pour façonner l'avenir de la civilité dans les communications en ligne.