Dentro de la tecnología: Resolver para la seguridad en comunicación con voz inmersiva

Dentro de la tecnología es una serie en blog que acompaña a nuestro podcast Tech Talks. En el episodio 20 del podcast, La evolución de los avatares de Roblox, el CEO de Roblox, David Baszucki, habló con el Director de producto senior, Kiran Bhat, Director de producto senior, Mahesh Ramasubramanian, y el Gerente de producto principal, Effie Goenawan, sobre el futuro de la comunicación inmersiva a través de avatares y los desafíos técnicos que resolvemos para alentarlo. En esta edición de Dentro de la tecnología, hablamos con el Gerente de ingeniería senior, Andrew Portner para aprender más de uno de esos desafíos técnicos, seguridad en la comunicación por voz inmersiva, y cómo el trabajo del equipo ayuda a crear un ambiente digital civilizado para todos en nuestra plataforma.

Episodio 20

La evolución de los avatares de Roblox

Con Kiran Bhat, director sénior de ingeniería, Mahesh Ramasubramanian, director sénior de producto, y Effie Goenawan, directora principal de producto
El director sénior de ingeniería Kiran Bhat, el director sénior de producto Mahesh Ramasubramanian y la directora principal de producto Effie Goenawan se unen al director general David Baszucki para echar un vistazo al futuro de la comunicación inmersiva a través de avatares y a los retos técnicos que estamos resolviendo para potenciarla. Analizarán en profundidad cómo los avatares expresivos no solo nos permiten expresarnos digitalmente, sino también comunicarnos de forma más inmersiva mediante la voz, las expresiones faciales y el lenguaje corporal.

¿Cuáles son los desafíos técnicos más grandes que está abordando tu equipo?

Priorizamos mantener una experiencia segura y positiva para nuestros usuarios. La seguridad y el civismo siempre son nuestra prioridad, pero administrar esto en tiempo real puede ser un gran desafío técnico. Cuando hay un problema, queremos poder revisarlo y hacer algo en tiempo real, pero esto es un desafío dada nuestra escala. Para manejar esta escala de forma efectiva, necesitamos aprovechar los sistemas de seguridad automatizados.

Otro desafío técnico en el que nos enfocamos es la precisión de nuestras medidas de seguridad para la moderación. Hay dos enfoques de moderación para abordar las violaciones de política y proporcionar comentarios precisos en tiempo real: la moderación reactiva y la moderación proactiva. Para la moderación reactiva, estamos desarrollando modelos de aprendizaje automático para identificar de forma precisa diferentes tipos de violaciones de políticas, los cuales responden a reportes de personas en la plataforma. De forma proactiva, trabajamos en la detección en tiempo real de contenido potencial que viole nuestras políticas, educando a los usuarios sobre su comportamiento. Entender la palabra hablada y mejorar la calidad de audio es un proceso complejo. Ya estamos viendo progreso, pero nuestro objetivo final es tener un modelo muy preciso que pueda detectar en tiempo real el comportamiento que viole las políticas.

¿Cuáles son algunos de los enfoques y soluciones innovadores que usamos para abordar estos desafíos técnicos?

Desarrollamos un modelo de aprendizaje automático completo capaz de analizar datos de audio y proporcionar un nivel de confianza con base en el tipo de violaciones de políticas (p. ej. qué tan probables es este abuso, profanidad, etc.). Este modelo mejoró significativamente nuestra habilidad de cerrar automáticamente ciertos reportes. Realizamos acciones cuando nuestro modelo es confiable y puede asegurar que supera a los humanos. En solo unos cuantos meses después del lanzamiento, pudimos moderar casi todos los reportes de abuso de voz en inglés con este modelo. Desarrollamos estos modelos de forma interna y son un testamento de la colaboración entre muchas tecnologías de código abierto, así como nuestro propio trabajo para crear la tecnología que los potencia.

Determinar lo que es apropiado en tiempo real parece bastante complejo. ¿Cómo funciona eso?

Trabajamos mucho para hacer que el sistema sea contextualmente consciente. También revisamos patrones a lo largo del tiempo antes de realizar acciones para asegurarnos que estas están justificadas. Nuestras políticas están matizadas con respecto a la edad de la persona, si está en un espacio público o en un chat privado, y de muchos otros factores. Exploramos formas nuevas de promover el civismo en tiempo real y el aprendizaje automático es el centro de ello. Recientemente lanzamos notificaciones push automáticas (o "nudges") para recordar a los usuarios de nuestras políticas. También buscamos otros factores como el tono de voz para entender mejor las intenciones de una persona y distinguir cosas como el sarcasmo y las bromas. Finalmente, también estamos construyendo un modelo multilingüe porque algunas personas hablan múltiples idiomas, o incluso cambian de idioma a mitad de una oración. Para que esto sea posible, debemos tener un modelo preciso.

Actualmente, nos enfocamos en abordar las formas más prominentes de abuso como acoso, discriminación y profanidad. Estos forman parte de la mayoría de los reportes por abuso. Nuestro objetivo es tener un impacto significativo en estas pareas y establecer las normas de la industria para promover y mantener una conversación en línea civilizada. Nos emociona el potencial del aprendizaje automático en tiempo real, pues nos permite mantener de forma efectiva una experiencia segura y cortés para todos.

¿Qué tan únicos son los desafíos que resolvemos en Roblox? ¿Qué podemos resolver primero?

Nuestra tecnología de Chat con voz espacial crea una experiencia más inmersiva, imitando la comunicación en el mundo real. Por ejemplo, si estoy a la izquierda de alguien, me escucharán con su oído izquierdo. Creamos un análogo de cómo funcionan las comunicaciones en el mundo real y este es un desafío que estamos en posición para resolver primero.

Como jugador, he atestiguado mucho acoso y hostigamiento en juegos en línea. Es un problema que usualmente no se resuelve debido a la anonimato de los usuarios y la falta de consecuencias. Sin embargo, los desafíos técnicos que abordamos alrededor de esto son únicos en un par de áreas, comparados con los de otras plataformas. En algunas plataformas de juegos, las interacciones se limitan a compañeros de equipo. Roblox ofrece una variedad de formas para compartir un ambiente social que se acerque más a la vida real. Con avances en aprendizaje automático y procesamiento de señal en tiempo real, podemos detectar y abordar de forma efectiva el comportamiento abusivo, lo que significa que no solo somos un ambiente más realista sino uno en el que todos se sienten seguros para interactuar y conectarse con otros. La combinación de nuestra tecnología, nuestra plataforma inmersiva y nuestro compromiso para educar usuarios sobre nuestras políticas nos ponen en una posición para abordar estos desafíos de frente.

¿Cuáles son algunas de las principales cosas que aprendiste de este trabajo técnico?

Siento que aprendí muchas cosas. No soy ingeniero de aprendizaje automático. Principalmente he trabajado en parte del juego a la que acceden los usuarios, así que poder profundizar más que nunca antes sobre cómo funcionan estos modelos es grandioso. Espero que las acciones que tomamos para promover el civismo se traduzcan a un nivel de empatía que ha estado faltando en la comunidad en línea.

Un último aprendizaje es que todo depende de los datos de entrenamiento que ingreses. Y para que los datos sean precisos, los humanos tienen que estar de acuerdo sobre las etiquetas usadas para categorizar ciertos comportamientos de violación de políticas. Es muy importante entrenar con datos de calidad con los que todos puedan estar de acuerdo. Es un problema muy difícil de resolver. Comienzas a ver áreas en las que el aprendizaje automático está más adelantado que todo el resto, y luego otras en las que aún sigue en las primeras etapas. Aún hay muchas áreas en las que el aprendizaje automático sigue creciendo, por lo que es fundamental conocer sus límites actuales.

¿A qué valor de Roblox se apega más tu equipo?

Respetar la comunidad es nuestro valor guía durante todo este proceso. Primero, necesitamos enfocarnos en mejorar el civismo y reducir las violaciones de políticas en nuestra plataforma. Esto tiene un impacto significativo en la experiencia general del usuario. Segundo, debemos considerar cuidadosamente cómo desplegar estas nuevas funciones. Debemos estar al tanto de los falsos positivos (p. ej. marcar incorrectamente algo como abuso) en el modelo y evitar penalizar incorrectamente a algún usuario. Monitorear el rendimiento de nuestros modelos y su impacto en la participación del usuario es crucial.

¿Qué es lo que más te entusiasma de la dirección que están tomando Roblox y tu equipo?

Tuvimos un avance significativo en la mejora de la comunicación por voz pública, pero aún hay mucho por hacer. La comunicación privada es un área emocionante a explorar. Creo que hay una oportunidad muy grande de mejorar la comunicación privada, para permitir a los usuarios expresarse con amigos cercanos, tener una llamada de voz a través de experiencias o durante una experiencia mientras interactúan con sus amigos. Creo que también hay una oportunidad de aportarle a estas comunidades mejores herramientas para permitirle a los usuarios autoorganizarse, unirse a comunidades, compartir contenido y compartir ideas.

A medida que seguimos creciendo, ¿cómo escalamos nuestra tecnología de chat para apoyar a estas comunidades en expansión? Solo estamos en la punta del iceberg de lo mucho que podemos hacer, y creo que hay una oportunidad de mejorar el civismo de la comunicación en línea y la colaboración en la industria de una forma que no se ha hecho antes. Con la tecnología correcta y las capacidades de aprendizaje automático, estamos en una posición única de darle forma al futuro de la comunicación en línea civilizada.