Inside the Tech – Soluções Para a Segurança na Comunicação Imersiva por Voz

por Roblox

Publicado 18 de jan. de 2024

Inside the Tech é uma série de blog que acompanha o Podcast Tech Talks. No episódio 20 do podcast, The Evolution of Roblox Avatars (A Evolução dos Avatares da Roblox), o CEO da Roblox David Baszucki conversou com o Diretor Sênior de Engenharia Kiran Bhat, o Diretor Sênior de Produto Mahesh Ramasubramanian e a Principal Gerente de Produto Effie Goenawan sobre o futuro da comunicação imersiva por meio de avatares e os desafios técnicos que estamos resolvendo. Nessa edição de Inside the Tech, conversamos com o Gerente Sênior de Engenharia Andrew Portner para explorar um desses desafios técnicos, a segurança na comunicação imersiva por voz e como o trabalho do time está ajudando a promover um ambiente digital seguro e civilizado para todos na nossa plataforma.

Quais são os maiores desafios técnicos que o seu time está enfrentando?

A nossa prioridade é garantir uma experiência segura e positiva para os nossos usuários. Segurança e civilidade estão sempre nos nossos planos, mas lidar com isso em tempo real pode ser um grande desafio técnico. Sempre que há um problema, queremos poder analisá-lo e adotar medidas em tempo real, mas, diante da nossa escala, isso é um desafio. Para lidar com essa escala com eficiência, precisamos tirar vantagem de sistemas de segurança automatizados.

Outro desafio técnico em que estamos concentrados é a precisão das nossas medidas de segurança na moderação. Há duas abordagens de segurança para lidarmos com violações de regras e fornecermos um retorno preciso em tempo real: a moderação reativa e a moderação proativa. Para a moderação proativa, estamos desenvolvendo modelos de aprendizado de máquina para identificar com precisão diferentes tipos de violações de regras, que funcionam respondendo a denúncias de pessoas do mundo inteiro na plataforma. Proativamente, estamos trabalhando na detecção em tempo real de conteúdo que viole as nossas regras, educando os usuários sobre seu comportamento. Compreender a linguagem falada e melhorar a qualidade de áudio é um processo complexo. Já estamos vendo progresso, mas o nosso objetivo final é alcançar um modelo altamente preciso capaz de identificar comportamentos em violação a regras em tempo real.

Quais são algumas das abordagens e soluções inovadoras que estamos adotando para enfrentar esses desafios técnicos?

Desenvolvemos um modelo de aprendizado de máquina ponta a ponta capaz de analisar dados de áudio e oferecer um nível de confiança baseado no tipo das violações de regras (por exemplo, a incidência de bullying, palavrões etc.). Esse modelo aumentou consideravelmente a nossa capacidade de fechar automaticamente certas denúncias. Nós agimos quando nosso modelo oferece confiança o suficiente para termos certeza de que ele tem um desempenho melhor do que os humanos. Apenas alguns meses após o lançamento, conseguimos moderar quase todas as denúncias de abusos em inglês com esse modelo. Desenvolvemos esses modelos internamente, e eles representam a colaboração entre muitas tecnologias de código aberto e o nosso próprio trabalho para criar a tecnologia por trás deles.

Determinar o que é apropriado em tempo real parece muito complexo. Como isso funciona?

Tornar o sistema contextualmente ciente requer muito raciocínio. Também examinamos padrões ao longo do tempo antes de adotarmos medidas, assim podemos ter certeza de que nossas ações são justificadas. Nossas regras podem variar dependendo da idade do indivíduo, se ele estava em um espaço público ou em um chat privado, e muitos outros fatores. Estamos explorando novas maneiras de promover a civilidade em tempo real, e o aprendizado de máquina está no cerne disso. Recentemente, lançamos notificações de push automáticas (ou "cutucões") para lembrar aos usuários das nossas regras. Também estamos analisando fatores como o tom da voz para entendermos melhor as intenções do indivíduo e distinguir coisas como sarcasmo ou piadas. Por último, também estamos desenvolvendo um modelo multilíngue, já que algumas pessoas falam mais de um idioma ou até mudam de idioma no meio da frase. Para que tudo isso seja possível, precisamos ter um modelo preciso.

Atualmente, estamos concentrados no tratamento das formas de abuso mais prevalentes, como assédio, discriminação e palavrões. Eles compõem a maioria das denúncias de abuso. Nosso objetivo é ter um impacto considerável nessas áreas e definir as normas da indústria para a promoção e a manutenção de um diálogo online civilizado. Estamos muito empolgados com o potencial do uso do aprendizado de máquina em tempo real, já que ele nos permite promover com eficácia uma experiência segura e civilizada para todos.

Por que os desafios que estamos resolvendo na Roblox são únicos? O que podemos resolver primeiro?

Nossa tecnologia de Chat com Voz Espacial cria uma experiência mais imersiva, imitando a comunicação do mundo real. Por exemplo, se eu estiver à esquerda de alguém, essa pessoa vai me ouvir com o ouvido direito. Estamos criando algo semelhante à comunicação no mundo real, o que é um desafio que já podemos resolver.

Como alguém que também joga jogos eletrônicos, já testemunhei muito assédio e bullying nos jogos online. É um problema que muitas vezes não é resolvido em virtude do anonimato do usuário e da falta de consequências. Entretanto, os desafios técnicos que estamos enfrentando em torno disso são únicos em relação ao que outras plataformas enfrentam em algumas áreas. Em algumas plataformas de jogos, as interações são limitadas ao mesmo time. A Roblox oferece uma variedade de formas de comunicação em um ambiente social que imita de forma mais fiel o mundo real. Com os avanços do aprendizado de máquina e do processamento de sinal em tempo real, podemos detectar e abordar comportamentos abusivos. Isso significa que somos não só um ambiente mais realista, mas também um ambiente onde todos se sentem seguros para interagir e se conectar. A combinação entre a nossa tecnologia, a nossa plataforma imersiva e o nosso compromisso para com a educação dos usuários em relação às nossas regras nos permite encarar esses desafios de frente.

Cite algumas das principais coisas que você aprendeu com esse trabalho técnico.

Acho que aprendi muito. Não sou um engenheiro de aprendizado de máquina. Sempre trabalhei no front end dos jogos, então só o fato de me aprofundar mais nesses modelos foi muito importante. O que eu espero é que as medidas que estamos adotando para promover civilidade se traduzam num nível de empatia que falta na comunidade online.

Por último, tudo depende dos dados de treinamento inseridos. E, para que os dados sejam precisos, os humanos precisam concordar com os rótulos usados para categorizar certos comportamentos em violação às regras. É muito importante usar dados de treinamento de qualidade que satisfaçam a todos. Estamos falando de um problema de difícil solução. Começamos a ver áreas em que o aprendizado de máquina está muito à frente de tudo, enquanto há outras áreas em que ele ainda está só começando. Ainda há muitas áreas em que o aprendizado de máquina ainda está se desenvolvendo, então é essencial reconhecer seus limites atuais.

Com qual valor da Roblox seu time mais se alinha?

O respeito à comunidade é o valor que nos guia no processo. Primeiro, precisamos nos concentrar em melhorar a civilidade e reduzir as violações às regras na nossa plataforma. Isso tem um impacto significativo na experiência do usuário em geral. Segundo, precisamos considerar meticulosamente como implementar as novas funcionalidades. Precisamos estar cientes dos falsos positivos (por exemplo, a identificação errônea de algo como abusivo) no modelo e evitar penalizações injustas. É crucial monitorar o desempenho dos nossos modelos e seu impacto no engajamento dos usuários.

O que mais te anima na direção tomada pela Roblox e seu time?

Fizemos um progresso considerável na promoção de melhores comunicações públicas por voz, mas ainda há muito a ser feito. As comunicações privadas são uma área empolgante para se explorar. Acho que temos uma grande oportunidade de melhorar as comunicações particulares para permitir que os usuários se expressem com amigos mais íntimos, que façam uma chamada de voz entre experiências ou durante uma experiência enquanto interagem com seus contatos. Acho que também temos a oportunidade de promover essas comunidades com ferramentas para permitir que os usuários se organizem, participem das comunidades, compartilhem conteúdo e ideias.

À medida que crescemos, como escalonaremos nossa tecnologia de chat para torná-la compatível com essas comunidades em expansão? Há muito que podemos fazer, e estamos apenas na superfície desse potencial. Eu acredito que temos a chance de melhorar a civilidade nas comunicações online e na colaboração entre a indústria de uma forma inédita. Com a tecnologia certa e as capacidades do aprendizado de máquina, nos encontramos numa posição única para moldar o futuro da civilidade na comunicação online.