Skip to content

Inside the Tech - Risolvere il problema di sicurezza nella comunicazione vocale immersiva

Inside the Tech è una serie di blog che accompagna il nostro Tech Talks Podcast. Nell'episodio 20 del podcast, L'evoluzione degli Avatar di Roblox, il CEO di Roblox David Baszucki ha parlato con il senior director Engineering Kiran Bhat, senior director Product Mahesh Ramasubramanian e Principal Product Manager Effie Goenawan, sul futuro della comunicazione immersiva attraverso gli avatar e le sfide tecniche che stiamo risolvendo per alimentarlo. In questa edizione di Inside the Tech, abbiamo parlato con il Senior Engineering Manager Andrew Portner per saperne di più su una di queste sfide tecniche, riguardo la sicurezza nella comunicazione vocale immersiva e come il lavoro del team stia contribuendo a promuovere un ambiente digitale sicuro e civile per tutti sulla nostra piattaforma.

Quali sono le più grandi sfide tecniche che il tuo team sta affrontando?

Diamo priorità al mantenimento di un'esperienza sicura e positiva per i nostri utenti. La sicurezza e la cortesia sono sempre al primo posto per noi, ma gestirle in tempo reale può essere una grande sfida tecnica. Ogni volta che c'è un problema, vogliamo essere in grado di revisionarlo e agire in tempo reale, ma questo è impegnativo data la nostra portata. Per gestire questi volumi in modo efficace, dobbiamo sfruttare i sistemi di sicurezza automatizzati.

Un'altra sfida tecnica su cui ci siamo concentrati è l'accuratezza delle nostre misure di sicurezza per la moderazione. Esistono due approcci di moderazione per affrontare le violazioni delle politiche e fornire un feedback accurato in tempo reale: moderazione reattiva e proattiva. Per la moderazione reattiva, stiamo sviluppando modelli di apprendimento automatico (ML) per identificare con precisione diversi tipi di violazioni delle politiche, che funzionano rispondendo alle segnalazioni delle persone sulla piattaforma. In modo proattivo, stiamo lavorando al rilevamento in tempo reale di potenziali contenuti che violano le nostre politiche, educando gli utenti sul loro comportamento. Comprendere i dialoghi e migliorare la qualità audio è un processo complesso. Stiamo già vedendo progressi, ma il nostro obiettivo finale è avere un modello altamente preciso in grado di rilevare comportamenti che violano le politiche in tempo reale.

Quali sono alcuni degli approcci e delle soluzioni innovative che stiamo utilizzando per affrontare queste sfide tecniche?

Abbiamo sviluppato un modello di ML end-to-end in grado di analizzare i dati audio e fornire un grado di certezza basato sul tipo di violazioni delle politiche (ad esempio, quanto è probabile che si tratti di bullismo, volgarità, ecc.). Questo modello ha migliorato significativamente la nostra capacità di chiudere automaticamente determinate denunce. Intraprendiamo l'azione quando abbiamo la certezza dell'efficacia e superiorità sulle prestazioni umane del modello. Nel giro di pochi mesi dal lancio, siamo stati in grado di moderare quasi tutte le segnalazioni di abusi vocali in inglese con questo modello. Abbiamo sviluppato questi modelli internamente ed è una testimonianza di successo della collaborazione tra molte tecnologie open source e il nostro lavoro per creare la tecnologia alla base.

Determinare ciò che è appropriato in tempo reale sembra piuttosto complesso. Come funziona?

C'è molto lavoro da fare per rendere il sistema consapevole, relativamente al contesto. Prima di agire, esaminiamo anche i modelli nel tempo, in modo da poter essere sicuri che le nostre azioni siano giustificate. Le nostre politiche sono variabili, a seconda dell'età di una persona, che si trovi in uno spazio pubblico o in una chat privata, e molti altri fattori. Stiamo esplorando nuovi modi per promuovere la cortesia in tempo reale e il machine learning è al centro di tutto. Di recente abbiamo lanciato notifiche push automatizzate (o “nudges”) per ricordare agli utenti le nostre politiche. Stiamo anche esaminando altri fattori come il tono di voce per capire meglio le intenzioni di una persona e distinguere elementi come il sarcasmo o gli scherzi. Infine, stiamo costruendo un modello multilingue poiché alcune persone parlano più lingue o addirittura cambiano lingua a metà frase. Affinché tutto ciò sia possibile, dobbiamo avere un modello accurato.

Attualmente, ci concentriamo sull'affrontare le forme più importanti di abuso, come molestie, discriminazione e volgarità. Queste costituiscono la maggior parte delle segnalazioni di abusi. Il nostro obiettivo è avere un impatto significativo in queste aree e stabilire le norme del settore per la promozione e il mantenimento di una conversazione online cortese. Siamo entusiasti del potenziale dell'utilizzo del machine learning in tempo reale, in quanto ci consente di promuovere efficacemente un'esperienza sicura e civile per tutti.

In che modo le sfide che stiamo risolvendo a Roblox sono uniche? Cosa siamo in grado di risolvere prima?

La nostra tecnologia Chat with Spatial Voice crea un'esperienza più coinvolgente, imitando la comunicazione del mondo reale. Ad esempio, se mi trovo alla sinistra di qualcuno, mi sentiranno nell'orecchio sinistro. Stiamo creando un modello analogo al funzionamento della comunicazione nel mondo reale e questa è una sfida che siamo in grado di risolvere per prima.

Come giocatore, ho assistito a molte molestie e bullismo nei giochi online. È un problema che spesso non viene controllato a causa dell'anonimato degli utenti e della mancanza di conseguenze. Tuttavia, in un paio di aree, le sfide tecniche che stiamo affrontando sono uniche rispetto a quelle di altre piattaforme. Su alcune piattaforme di gioco, le interazioni sono limitate ai compagni di squadra. Roblox offre una varietà di modi per ritrovarsi in un ambiente sociale che imita più da vicino la vita reale. Con i progressi nel machine learning e nell'elaborazione del segnale in tempo reale, siamo in grado di rilevare e affrontare efficacemente i comportamenti abusivi, il che significa che non siamo solo in un ambiente più realistico, ma anche in un ambiente in cui tutti si sentono sicuri di interagire e connettersi con gli altri. La combinazione della nostra tecnologia, della nostra piattaforma immersiva e del nostro impegno a educare gli utenti sulle nostre politiche ci rendono in grado di affrontare queste sfide a testa alta.

Quali sono alcuni degli elementi chiave che hai imparato facendo questo lavoro tecnico?

Penso di aver imparato davvero molto. Non sono un ingegnere ML. Ho lavorato principalmente sul front-end nel settore del gaming, quindi poter approfondire più di quanto abbia fatto finora il funzionamento di questi modelli è stato estremamente significativo. La mia speranza è che le azioni che stiamo intraprendendo per promuovere la cortesia si traducano in un livello di empatia nella comunità online che è mancato.

Un’ultima lezione appresa è che tutto dipende dai dati di addestramento utilizzati. E affinché i dati siano accurati, è necessario che le persone concordino sulle etichette usate per categorizzare determinati comportamenti che violano le politiche. È davvero importante formarsi su dati di qualità su cui tutti possano essere d'accordo. È un problema davvero difficile da risolvere. Si iniziano a vedere aree in cui il ML è molto più avanti di tutto il resto, e poi altre aree in cui è ancora nelle fasi iniziali. Ci sono ancora molte aree in cui il ML è ancora in crescita, quindi essere consapevoli dei suoi limiti attuali è fondamentale.

Con quale valore Roblox si allinea maggiormente il tuo team?

Il rispetto della comunità è il nostro valore principale durante questo processo. In primo luogo, dobbiamo concentrarci sul miglioramento della cortesia e sulla riduzione delle violazioni delle politiche sulla nostra piattaforma. Questo ha un impatto significativo sull'esperienza complessiva dell'utente. In secondo luogo, dobbiamo considerare attentamente come implementare queste nuove funzionalità. Dobbiamo essere consapevoli dei falsi positivi (ad esempio, contrassegnare erroneamente qualcosa come abuso) nel modello ed evitare di penalizzare erroneamente gli utenti. Monitorare le prestazioni dei nostri modelli e il loro impatto sul coinvolgimento degli utenti è fondamentale.

Cosa ti entusiasma di più riguardo alla direzione che Roblox e il tuo team stanno prendendo?

Abbiamo compiuto progressi significativi nel miglioramento della comunicazione vocale verso il pubblico, ma c'è ancora molto da fare. La comunicazione privata è un'area entusiasmante da esplorare. Penso che ci sia una grande opportunità per migliorare la comunicazione privata, permettendo a chi usa la piattaforma di esprimersi con le persone più care, di effettuare chiamate vocali tra diverse esperienze o durante una di esse, mentre interagisce con chi fa parte della propria cerchia. Penso che ci sia anche l'opportunità di promuovere queste comunità con strumenti migliori per consentire agli utenti di auto-organizzarsi, unirsi alle comunità, condividere contenuti e idee.

Mentre continuiamo a crescere, come possiamo sviluppare la nostra tecnologia di chat per supportare queste comunità in espansione? Abbiamo appena iniziato a esplorare le potenzialità di ciò che possiamo fare, e ritengo che esista l'opportunità di migliorare la qualità della comunicazione e della collaborazione online in tutto il settore in un modo senza precedenti. Con la giusta tecnologia e le giuste capacità di apprendimento automatico, siamo in una posizione unica per plasmare il futuro della comunicazione online cortese.