Abrindo o código do Sentinela Roblox: Nossa abordagem para detecção antecipada de riscos
Usando IA para ajudar a detectar padrões de bate-papo anormais antecipadamente
- Todos os dias, mais de 100 milhões de usuários de todas as idades têm uma experiência segura e positiva na Roblox.
- Nós nos esforçamos para tornar os nossos sistemas tão seguros quanto possível por padrão, especialmente para os nossos usuários mais jovens. Fazemos isso com as nossas políticas extremamente conservadoras e uso de IA para filtrar mensagens inapropriadas no bate-papo que detectamos, incluindo informações de identificação pessoal (fora de Conexões Confiáveis). Nós moderamos proativamente o conteúdo e não permitimos o compartilhamento de imagens do mundo real no bate-papo.
- Claro que nenhum sistema é perfeito e um dos maiores desafios do setor é detectar danos críticos como potenciais perigos para crianças. Uma série de bate-papos amigáveis e mensagens de apoio podem ter um significado diferente ao longo de um histórico de conversa mais longa, especialmente quando acontece entre usuários de faixas etárias diferentes.
- Desenvolvemos o Sentinela Roblox, um sistema de IA construído em aprendizagem contrastiva que nos ajuda a detectar sinais precoces de potencial perigo para crianças, como por exemplo o aliciamento, permitindo-nos investigar ainda mais cedo e, quando for relevante, denunciar para as autoridades competentes.
- Na primeira metade de 2025, o Sentinela ajudou a nossa equipe a enviar aproximadamente 1.200 denúncias de potenciais tentativas de exploração de crianças para o Centro Nacional de Crianças Desaparecidas e Exploradas. Isso inclui tentativas de contornar os nossos mecanismos de filtragem e outras salvaguardas.
- Estamos animados em abrir o código do Sentinela e estamos à procurando ativamente o envolvimento comunitário, que esperamos que ajude a construir uma internet mais segura.
Passar o tempo com amigos e competir com outros jogadores é uma componente central da Roblox, e a comunicação está no centro dessas atividades. Na verdade, todos os dias, mais de 111 milhões de usuários vêm para a Roblox, onde a comunidade envia uma média de 6,1 bilhões de mensagens de bate-papo e gera 1,1 milhão de horas de comunicações de voz em dezenas de idiomas. Essa comunicação reflete o mundo real - a maior parte são conversas do dia a dia, de conversas casuais a discussão sobre jogos. Porém, um pequeno número de maus atores tenta burlar nossos sistemas e possivelmente causar dano.
No mês passado, compartilhamos nossa visão para a comunicação baseada em idade. Nós nos esforçamos para tornar os nossos sistemas tão seguros quanto possível por padrão, especialmente para os nossos usuários mais jovens. Por exemplo, não permitimos o compartilhamento de imagens ou vídeo entre usuários no bate-papo. Nossos sistemas, embora não sejam perfeitos, estão melhorando continuamente e são projetados para bloquear proativamente qualquer informação de identificação pessoal, como números de telefone e nomes de usuário, além de conversas entre usuários sem idade verificada, que são fortemente filtradas (e não são permitidas para usuários menores de 13 anos). A Roblox é uma das maiores plataformas que requerem estimativa de idade facial para conversar mais livremente com as pessoas que você conhece. Nosso objetivo é liderar o mundo em segurança para os jogos on-line, e nós estamos comprometidos em fornecer código aberto para tecnologias de segurança importantes.
Hoje, estamos lançando nosso último modelo de código aberto, o Sentinela, um sistema IA para ajudar a detectar interações que podem potencialmente ser perigosas para crianças. Muito antes que algo se torne explícito, o Sentinela nos permite detectar e investigar padrões antecipadamente e, quando relevante, denunciar às autoridades competentes.
O Sentinela está sendo executado na Roblox desde o final de 2024 e é a última adição ao nosso kit de ferramentas de segurança de código aberto. Na primeira metade de 2025, 35% dos casos detectados por nós são devido a esta abordagem proativa. Em muitos casos, a captura ocorre antes que um relatório de abuso possa ser enviado. Quando combinado com nossos outros sistemas de moderação, o Sentinela expande o arsenal de ferramentas que temos para detectar e agir sobre essas violações potencialmente graves.
Entendendo o desafio
O perigo para crianças é um desafio em toda a indústria, tornando as novas tecnologias e a colaboração aberta extremamente valiosas. O aliciamento online e a construção sistemática de confiança e conexão emocional com o objetivo último de exploração são, por natureza, processos sutis e graduais. Essas interações são raras e muitas vezes começam como uma série de conversas amigáveis, mensagens de apoio e interesses compartilhados. Mensagens que inicialmente parecem inofensivas podem assumir um significado diferente ao longo de um histórico mais longo de conversas. Os maus atores geralmente usam uma linguagem sutil, indireta ou codificada; propositadamente tornando os padrões difíceis de detectar, mesmo para os revisores humanos. Por conseguinte, os nossos sistemas de detecção evoluem continuamente para acompanhar novas maneiras que os maus atores usam para tentar fugir de nossos sistemas. Além disso, dados de treinamento para aliciamento são raros, tornando difícil treinar sistemas de aprendizado de máquina.
Impacto proativo e ideias operacionais
O Sentinela está atualmente em execução em produção em escala. Na primeira metade de 2025, sua capacidade proativa ajudou a nossa equipe a enviar aproximadamente 1.200 relatórios para o Centro Nacional de Crianças Desaparecidas e Exploradas. Enquanto sempre teremos algo para melhorar, a capacidade de detecção antecipada do Sentinela já tem ajudado a identificar e investigar potenciais maus atores cedo no processo. quando mensagens ainda são sutis e antes que sejam enviadas por relatórios de abuso por parte de usuários.
Os peritos humanos são essenciais para investigar e intervir nos casos detectados pelo Sentinela. Analistas treinados, tipicamente antigos agentes da CIA ou FBI e outros peritos, revisam casos o Sentinela marca como potencialmente violentas. As decisões tomadas por esses analistas criam um ciclo de informações que nos permite refinar e atualizar continuamente os exemplos, índices e conjuntos de treinamento. Este processo de inclusão humana é essencial para ajudar o Sentinela a se adaptar e acompanhar os novos padrões e métodos evolutivos de maus atores que trabalham para iludir nossa detecção.
O Sentinela é uma parte importante do sistema de segurança em camadas expandido da Roblox, que combina ferramentas inovadoras de IA e milhares de especialistas humanos. A partir de hoje, ele também faz parte do nosso kit de ferramentas de segurança de código aberto Roblox. Acreditamos que promover um mundo digital mais seguro é uma responsabilidade compartilhada. Abrindo a fonte de sistemas de segurança como o Sentinela, compartilhando nossas abordagens e tornando-se membros fundadores de organizações como as Ferramentas de Segurança Online Robustas (ROOST, em inglês) e o projeto Lantern da Tech Coalition. esperamos contribuir para o avanço coletivo das práticas de segurança online e das comunidades online que dependem delas.
Nossa visão a longo prazo para o Sentinela estende-se além das conversas. Os princípios da utilização da incorporação e da medição contrastiva são altamente adaptáveis. Estamos explorando ativamente e desenvolvendo capacidades para aplicar essas técnicas a uma gama mais ampla de interações do usuário, movendo-se para o entendimento multimodal entre texto, imagem, vídeo e muito mais. Ao analisar esses sinais juntos, esperamos trabalhar para um entendimento mais completo e robusto do comportamento do usuário, assim, poderemos identificar riscos de segurança que sistemas de modalidade única poderiam ignorar.
Por dentro da tecnologia: Como o Sentinela potencializa a detecção antecipada
Para ajudar a permitir que nosso sistema de moderação aja rapidamente, antes que a intenção de prejudicar vá além da intenção, o Sentinela precisa executar a análise completa em tempo real em grande escala, entre 6 bilhões de mensagens de bate-papo todos os dias. O Sentinela continuamente captura o bate-papo de texto em períodos de um minuto. Mensagens são analisadas automaticamente pelo aprendizado de máquina, com a única intenção de identificar danos potenciais, como aliciamento ou risco infantil. Além disso, agregamos essa informação ao longo do tempo, identificando casos e padrões para que analistas humanos possam avaliar e investigar.
Ao contrário das ferramentas que dependem de regras estáticas e de exemplos rotulados, o Sentinela utiliza treinamentos autosupervisionados para aprender a identificar e generalizar padrões de comunicação à medida que eles ocorrem. Isto permite que o Sentinela identifique ameaças novas e em evolução.
A equipe conseguiu isso ao desenvolver dois índices! Um é composto pela comunicação de usuários que interagem com mensagens seguras e benignas, o índice positivo. O outro é composto de comunicações que foram removidas porque determinamos que elas eram violações da política de risco para crianças, o índice negativo. Essa abordagem contrastiva ajuda o sistema a generalizar e observar ameaças em evolução, mesmo quando elas não correspondem a padrões de comunicação detectados anteriormente pelo índice. Uma das principais vantagens do Sentinela é que não ele requer um grande número de exemplos para funcionar. Isto é particularmente importante à luz da baixa prevalência de exemplares negativos. Nosso sistema de produção atual opera com apenas 13.000 exemplares no índice negativo, enquanto ainda identifica com sucesso os danos potenciais.
Para construir o índice positivo, usamos uma amostra curada de histórico de bate-papo de usuários sem histórico de violações das Regras da Comunidade relacionadas à segurança e com engajamento consistente e positivo a longo prazo na Roblox. Ao usar esta amostra curada de histórico de bate-papo da Roblox, em vez de conjuntos de dados de texto genéricos, fomos capazes de ajudar o Sentinela a aprender novos padrões e estilos específicos de linguagem. Isso ajuda o sistema a fazer comparações mais precisas, reduzindo falsos positivos e permitindo-lhe diferenciar melhor entre a comunicação típica da Roblox e a comunicação violadora.
O índice negativo é criado a partir de conversas revisadas por nossos moderadores humanos, onde nós encontramos evidências claras de violações da política de riscos infantis (nos quais já aplicamos medidas). Quando as interações de um usuário mostram os atividade contínua e preocupante, rotulamos os trechos específicos dessas conversas como exemplos de comunicação prejudicial. Esses segmentos rotulados são transformados em vetores embutidos e adicionados ao índice negativo. Com este treinamento, o Sentinela aprende a ir além de sinalizar certas palavras ou frases; ele aprende com os padrões e progressões contextuais que as conversas com intenção de causar danos seguem. Por esse motivo, o sistema pode reconhecer comunicações prejudiciais que nossos outros sistemas de moderação de IA podem não reconhecer, mesmo quando eles parecem sutis.
Por exemplo, mensagens simples como “Ei, como você está?” corresponderia ao índice positivo porque o linguajar é benigno. Uma mensagem como “De onde você é?” corresponderia ao índice negativo porque corresponde a padrões de potenciais conversas aliciantes. O sistema compara novas mensagens com esses índices e se ele vê um usuário perguntando “De onde você é?”, pode começar a coletar mais informações para ver se a conversa continua pelo caminho negativo. Enquanto que só uma mensagem não seria o bastante para marcar a conversa para revisão humana, um padrão contínuo seria.
Medição contrastiva
Esta abordagem de medição contrastiva é inspirada em SimCLR, um sistema de aprendizagem autosupervisionado que usa medição contrastiva para treinar modelos de representação de imagem sem dados rotulados. Adaptamos essa técnica para trabalhar com dados de texto e voz, habilitar o Sentinela para entender o que um usuário diz e como isso está em conformidade ou diverge dos padrões conhecidos. Isso funciona em três etapas: pontuação de interação, rastreamento de padrões e tomada de medidas.
Medindo interações individuais: Cada mensagem é convertida em um acúmulo ou vetor que captura a semântica da ação e funcionalidades de comunicação. O Sentinela compara esse acúmulo de acordo com os índices positivos e negativos. Usando a similaridade de cosseno, o sistema então mede em que índice a interação está mais próximo.
Se a interação estiver mais alinhada com os padrões nocivos do índice negativo, receberá um indicador de risco mais elevado. Mensagens que não estão adequadamente alinhadas com padrões de comunicação seguros ou nocivos são filtradas para que o sistema se concentre apenas nas interações que carregam um sinal potencial. Isso pode ajudar a reduzir falsos positivos e melhorar a precisão da medição de interações ao longo do tempo.
Padrões de rastreamento com tendência, não só médias: Maus atores muitas vezes mascaram sua intenção misturando isso com conteúdo inofensivo. Se simplesmente medimos um usuário ao longo do tempo, as mensagens negativas que queremos detectar poderiam se perder no ruído. Em vez disso, o Sentinel olha para a distribuição de medidas ao longo do tempo e mede o uso de dados estatísticos de forma a detectar se há mensagens raras de alto risco puxando, colocando o perfil de risco para cima.
Isso nos ajuda a detectar sinais iniciais de escalada em direção a uma comunicação perigosa, mesmo que a maioria das interações pareçam benignas. Quando analisamos a tendência, também corrigimos o volume. Usuários altamente ativos podem parecer mais arriscados porque sua comunicação mostra um maior número absoluto de correspondências. Ao enfatizar o manuseio estatístico e não o volume global, podemos evitar falsos positivos envolvendo usuários mais falantes que obedecem as regras. Com isso, o Sentinela não é só escalonável, é mais preciso e capaz de processar vastos fluxos de comunicação para encontrar sinais raros e críticos que ajudam a detectar a intenção de causar dano.
Indo do sinal para a ação: À medida que mais interações são medidas, o sistema constrói um perfil de risco dinâmico. Quando o padrão de usuário mostra um forte alinhamento com a comunicação de intenção de causar dano, ou uma tendência que se move nessa direção, o Sentinela aciona um marcador para revisão e investigação mais profunda.