Lançando mais idiomas para nosso modelo de segurança de voz de código aberto

  • Estamos atualizando nosso classificador de segurança de voz de código aberto aumentando seus parâmetros de 94.600 para 120.200 e expandindo-o para sete idiomas adicionais.

  • Desde a primeira versão do classificador, temos aumentado a precisão para um retorno de 59,1% no bate-papo de voz em inglês em uma taxa de falsos positivos de 1%. Esta é uma melhoria de 92% em relação à versão anterior, que tinha uma taxa de 30,9%.

A promoção da segurança e da civilidade esteve sempre na base de tudo o que fazemos na Roblox. Passamos quase duas décadas construindo sistemas de segurança fortes e estamos crescendo e evoluindo continuamente cada um deles à medida que novas tecnologias se tornam disponíveis. Em 2024, enviamos mais de 40 melhorias de segurança, incluindo a renovação de nosso Controle dos responsáveis, que estamos atualizando novamente hoje. Também lançamos um dos primeiros classificadores de segurança de voz de código aberto, que foi baixado mais de 23.000 vezes. Hoje, estamos lançando uma versão atualizada, que é ainda mais precisa e funciona em mais idiomas.

Muitos dos sistemas de segurança que ajudam a proteger nossos utilizadores, incluindo o classificador, são alimentados por modelos de IA. Nós abrimos código para algumas dessas ferramentas porque sabemos que compartilhar avanços de segurança de IA beneficia o setor inteiro. E também é por isso que recentemente nós nos juntámos à ROOST— uma nova organização sem fins lucrativos dedicada a resolver áreas importantes da segurança digital promovendo ferramentas de segurança de código aberto — como um parceiro fundador.

Ao gerenciar o volume de conteúdo e interações que ocorrem em nossa plataforma todos os dias ao redor do mundo, a IA é um elemento essencial para manter os usuários seguros. Estamos confiantes de que os modelos que construímos estão ajudando a atender nossas necessidades. No quarto trimestre de 2024, por exemplo, os usuários Roblox fizeram upload de 300 bilhões de unidades de conteúdo. Apenas 0,01% desses bilhões de vídeos, áudios, textos, conversas de voz, avatares e experiências 3D foram detectados como violando as nossas políticas. E quase todo esse conteúdo que violava políticas foi automaticamente filtrado e removido antes que os usuários o tivessem visto.

Atualizamos a versão código aberto do nosso classificador de segurança de voz para torná-lo mais preciso e nos ajudar a moderar o conteúdo em mais idiomas. O novo modelo:

  • Detecta violações em sete idiomas adicionais: Espanhol, Francês, Português, Italiano, Coreano e Japonês, graças ao treinamento de dados multilingues.

  • Isso aumentou a taxa de retorno global de 59,1%, uma melhoria de 92% comparada com os 30,9% na versão anterior, com baixas taxas de falsos positivos.

  • Está otimizado para servir em escala, servindo até 8.300 pedidos (a maioria dos quais não contém violações) por segundo durante o pico.

Desde o lançamento do primeiro modelo, temos visto uma redução nas denúncias de abuso entre usuários dos EUA em mais de 50% por hora de fala. Isso também nos ajudou a moderar milhões de minutos de bate-papo de voz por dia com mais precisão do que os moderadores humanos. Nunca paramos de avançar nossos sistemas de segurança e também continuaremos a atualizar a versão de código aberto.

Classificador de segurança de voz multilíngue eficiente

Nosso classificador de segurança de voz de código aberto era inicialmente baseado em um modelo WavLM base+, ajustado com amostras de áudio de bate-papo de voz do idioma inglês. Os resultados encorajadores dessa arquitetura de ponta a ponta levaram a mais experimentos com uma arquitetura personalizada. Usamos a destilação de conhecimento para otimizar a complexidade do modelo e a precisão, o que é atraente para a inferência em grande escala. Nosso novo classificador usa estes blocos de construção fundamentais e amplia e estende o trabalho em refinamento de uso de dados e arquitetura.

Ao treinar dados multilíngues, o nosso modelo de classificador único pode funcionar perfeitamente em qualquer um dos oito idiomas que suportamos. E as nossas melhorias de formação significam que o modelo é mais preciso e 20% a 30% mais rápido para funcionar num cenário de inferência típico do que a primeira versão.

O novo classificador de segurança de voz ainda é baseado na arquitetura WavLM, mas a configuração da camada difere do lançamento anterior e dos modelos pré-treinados da WavLM. Em particular, acrescentámos uma camada adicional de convolução para reduzir a resolução da hora interna das camadas de transformadores. No total, a nossa nova arquitetura modelo tem 120.200 parâmetros, um aumento de 27% em comparação com 94.600 na versão anterior. Apesar deste aumento, o novo modelo consome 20% a 30% menos tempo de computação quando utilizado com segmentos de entrada de 4 a 15 segundos. Isto é possível porque o modelo comprime o sinal de entrada numa representação mais curta do que antes.

Utilizando uma variedade de estratégias de rotulagem

O treinamento supervisionado de um modelo de ponta a ponta requer pares curados de rótulos de áudio e de classe. Fizemos melhorias significativas em nosso processamento de dados que garantiram um fluxo constante de dados rotulados. A fundação do material de treinamento é um grande conjunto de dados rotulado por máquina de mais de 100.000 horas de discurso que compreende as línguas suportadas. Transcrevemos automaticamente o discurso e o gerimos através do nosso classificador interno de toxicidade, que compartilha a política e as categorias de toxicidade desejadas. A coleta de dados mostra conteúdo abusivo com maior probabilidade do que o discurso benigno para melhor capturar casos de ponta e menos violações políticas comuns.

Rótulos baseados em transcrição de falas e classificação baseadas em texto não podem capturar completamente as nuances observadas no conteúdo do bate-papo de voz. Assim, utilizamos dados de domínio humano para ajustar o modelo à fase anterior de treino. Enquanto a tarefa de classificação é a mesma, a última fase de treinamento ajuda a refinar os limites das decisões e enfatiza a capacidade de resposta a expressões específicas do bate-papo de voz. Esta é uma forma de aprendizado curricular que nos ajuda a tirar o máximo proveito dos valiosos exemplos rotulados como humanos.

Um dos desafios que se colocam à formação contínua consiste no fato de os rótulos de referência poderem tornar-se obsoletos se a política de rotulagem se alterar ao longo do tempo. Para aperfeiçoar a nossa política de voz, precisamos de um tratamento especial para os dados que utilizam normas de rotulagem mais antigas. Para isso, utilizamos uma abordagem multitarefa que permite que o modelo aprenda com conjuntos de dados que não correspondem à política atual do bate-papo de voz. Isto implica a dedicação de uma cabeça de classificação separada para a política antiga, permitindo que o tronco do modelo aprenda com os dados antigos sem afetar os rótulos ou a cabeça primária.

Um modelo calibrado para implantação mais fácil

Usar o modelo de classificação requer uma decisão sobre o ponto de operação que combine a sensibilidade do classificador de acordo com os requisitos de tarefa. Para facilitar a implantação de modelo mais fácil, calibramos os resultados do modelo, ajustados para a moderação do bate-papo de voz. Estimamos transformações lineares de um conjunto de dados guardado, fazendo isso separadamente para cada cabeça de saída e linguagem suportada. Estas transformações foram aplicadas durante a destilação do modelo, que garantiu a calibração nativa do modelo final. Isto eliminou a necessidade de pós-processamento durante a inferência.

Estamos animados para compartilhar esse novo modelo de código aberto com a comunidade e estamos ansiosos para compartilhar atualizações futuras conforme elas forem disponibilizadas.