Abrimos el acceso al código para Roblox Sentinel: nuestro enfoque para la detección preventiva de riesgos

Uso de la IA para ayudar a la detección temprana de patrones de chat anormales

  • Todos los días, más de 100 millones de usuarios de todas las edades tienen una experiencia segura y positiva en Roblox.
  • Nos esforzamos por hacer que nuestros sistemas sean lo más seguros posible de forma predeterminada, especialmente para nuestros usuarios más jóvenes. Esto es posible gracias a nuestras políticas tan cautelosas y restrictivas, además de aprovechar la IA para filtrar los mensajes que detectamos como inapropiados en el chat, incluida la información de identificación personal (fuera de Conexiones de confianza). Moderamos el contenido de manera proactiva y no permitimos el intercambio de imágenes del mundo real en el chat.
  • Por supuesto, ningún sistema es perfecto y uno de los mayores desafíos en el sector es detectar riesgos graves como el peligro potencial para menores. Una serie de chats amistosos y mensajes de apoyo pueden adquirir un significado diferente en un historial de conversación más largo, especialmente cuando ocurre entre usuarios de diferentes grupos de edad.
  • Desarrollamos Roblox Sentinel, un sistema de IA basado en aprendizaje contrastivo que nos ayuda a detectar señales tempranas de posible peligro para los niños, como el abuso o captación de menores (grooming), lo que nos permite investigar incluso antes y, cuando sea relevante, informar a las fuerzas del orden.
  • En la primera mitad de 2025, Sentinel ayudó a nuestro equipo a presentar aproximadamente 1,200 reportes de posibles intentos de explotación infantil al Centro Nacional para Niños Desaparecidos y Explotados. En estos se incluyen intentos de eludir nuestros mecanismos de filtrado y otras medidas de seguridad.
  • Nos llena de entusiasmo abrir el código de Sentinel y buscamos activamente la participación de la comunidad, con la esperanza de que esto ayude a construir un internet más seguro.

Pasar tiempo con amigos y competir con otros jugadores es un componente central de Roblox, y la comunicación está en el centro de estas actividades. De hecho, todos los días, más de 111 millones de usuarios acceden a Roblox, donde la comunidad envía un promedio de 6,100 millones de mensajes de chat y genera 1.1 millones de horas de comunicaciones de voz en docenas de idiomas. Esta comunicación refleja el mundo real: la gran mayoría son conversaciones cotidianas, desde conversaciones casuales hasta discusiones sobre el juego, pero un pequeño número de infractores buscan eludir nuestros sistemas y posiblemente tratar de causar daño.

El mes pasado, compartimos nuestra visión de la comunicación basada en la edad. Nos esforzamos por hacer que nuestros sistemas sean lo más seguros posible de forma predeterminada, especialmente para nuestros usuarios más jóvenes. Por ejemplo, en el chat no permitimos el intercambio de imágenes o videos entre usuarios. Nuestros sistemas, aunque no son perfectos, mejoran continuamente y están diseñados para bloquear de manera proactiva la información de identificación personal, como números de teléfono y nombres de usuario, y el chat entre usuarios no verificados por edad está fuertemente filtrado (además de que no está permitido para menores de 13 años). Roblox es una de las plataformas más grandes que requieren estimación de edad facial para chatear con mayor libertad con las personas que conoces. Nuestro objetivo es liderar el mundo en seguridad para los juegos en línea, y estamos comprometidos a abrir el acceso a los códigos de tecnología de seguridad clave.

Hoy, lanzamos nuestro último modelo de código abierto, Sentinel, un sistema de IA para ayudar a detectar interacciones que podrían conducir a situaciones de peligro para los menores. Mucho antes de que algo se vuelva explícito, Sentinel nos permite investigar patrones sutiles y detectarlos temprano y, cuando sea pertinente, informar a las fuerzas del orden.

Sentinel opera en Roblox desde finales de 2024 y es la última incorporación a nuestro kit de herramientas de seguridad de código abierto. En la primera mitad de 2025, el 35% de los casos que detectamos se deben a este enfoque proactivo, en muchas ocasiones detectándolos antes de que se pudiera presentar un reporte de abuso. Cuando se combina con nuestros otros sistemas de moderación, Sentinel amplía el arsenal de herramientas que tenemos para detectar y actuar sobre estas infracciones potencialmente graves.

Comprensión del desafío

El abuso infantil es un desafío en todo el sector, lo que hace que las nuevas tecnologías y la colaboración abierta sean increíblemente valiosas. El grooming en línea, el desarrollo sistemático de confianza y conexión emocional con el objetivo final de la explotación, es por naturaleza un proceso sutil y gradual. Este tipo de interacciones son raras y, a menudo, comienzan como una serie de chats amistosos, mensajes de apoyo e intereses compartidos. Los mensajes que inicialmente parecen inofensivos pueden adquirir un significado diferente en un historial de conversación más largo. Los infractores a menudo usan un lenguaje sutil, indirecto o codificado, haciendo que los patrones sean difíciles de detectar, incluso para los equipos de supervisión. Por lo tanto, nuestros sistemas de detección evolucionan continuamente para mantenerse al día con las nuevas formas en que los infractores intentan evadirlos. Además de esto, los datos de entrenamiento para detectar grooming son escasos, lo que dificulta entrenar sistemas de aprendizaje automático.

Impacto proactivo e información operativa

Actualmente, Sentinel opera en producción a escala. En la primera mitad de 2025, sus capacidades proactivas ayudaron a nuestro equipo a presentar aproximadamente 1,200 reportes al Centro Nacional para Niños Desaparecidos y Explotados. Aunque siempre habrá margen de mejora, la capacidad de detección temprana de Sentinel ya nos están ayudando a identificar e investigar a los posibles infractores en una etapa más temprana del proceso, cuando los mensajes aún son sutiles y antes de que salgan a la luz en las denuncias de abuso enviadas por los usuarios. 

Los expertos del lado humano son esenciales para investigar e intervenir en los casos que Sentinel detecta. Los analistas capacitados, generalmente exagentes de la CIA o el FBI y otros expertos, revisan los casos que Sentinel señala como infractores en potencia. Las decisiones tomadas por estos analistas crean un ciclo de retroalimentación que nos permite refinar y actualizar continuamente los ejemplos, índices y datos de entrenamiento. Este proceso de inclusión humana es esencial para ayudar a Sentinel a adaptarse y mantenerse al día con los nuevos patrones y métodos, así como para detectar la evolución de los infractores que se esfuerzan por evadir nuestra detección.

Sentinel es una parte importante del sistema de seguridad en capas más grande de Roblox, que combina herramientas innovadoras de IA y miles de expertos humanos. A partir de hoy, también forma parte de nuestro kit de herramientas de seguridad de código abierto de Roblox. Creemos que fomentar un mundo digital más seguro es una responsabilidad compartida. Al abrir el código de sistemas de seguridad como Sentinel, compartir nuestros enfoques y convertirnos en miembros fundadores de organizaciones como Robust Open Online Safety Tools (ROOST) y el proyecto Lantern de Tech Coalition, esperamos contribuir al avance colectivo de las prácticas de seguridad en línea y las comunidades en línea que dependen de ellas.

Nuestra visión a largo plazo para Sentinel va más allá de la conversación. Los principios del uso de incrustaciones y medición contrastiva son altamente adaptables. Estamos explorando y desarrollando activamente capacidades para aplicar estas técnicas a un rango más amplio de interacciones de los usuarios, avanzando hacia una comprensión multimodal a través de texto, imagen, video y más. Al analizar estas señales en conjunto, esperamos alcanzar una comprensión más holística y sólida del comportamiento de los usuarios para así identificar mejor los riesgos potenciales de seguridad que los sistemas de una sola modalidad podrían pasar por alto. 

Dentro de la tecnología: cómo Sentinel potencia la detección preventiva

Para ayudar a que nuestro sistema de moderación actúe con rapidez, antes de que la intención de causar daño se convierta en acción, Sentinel necesita ejecutar todo el proceso de análisis casi en tiempo real, a gran escala, en más de 6 mil millones de mensajes de chat cada día. Sentinel captura continuamente fragmentos de texto del chat en intervalos de un minuto. Igualmente, los mensajes son analizados por aprendizaje automático, con la única intención de identificar daños potenciales, como el abuso o captación de menores (grooming) o situaciones de peligro para los niños. Además, esta información se agrega a lo largo del tiempo, identificando casos y patrones preocupantes para que los analistas los evalúen e investiguen. 

A diferencia de las herramientas que se basan en reglas estáticas y ejemplos etiquetados, Sentinel utiliza entrenamiento autodirigido para aprender a detectar y generalizar los patrones de comunicación a medida que ocurren. Esto le permite identificar amenazas nuevas y en evolución.

El equipo logró esto mediante el desarrollo de dos índices. Uno se compone de la comunicación de los usuarios que interactúan con mensajes seguros y benignos: el índice positivo. El otro se compone de comunicaciones que se eliminaron porque determinamos que eran infracciones a la política de protección infantil: el índice negativo. Este enfoque contrastivo ayuda al sistema a generalizar y detectar amenazas en evolución, incluso si no coinciden exactamente con los patrones de comunicación detectados previamente en el índice. Una de las ventajas clave de Sentinel es que no requiere una gran cantidad de ejemplos para funcionar. Esto es sumamente importante debido a la baja prevalencia de ejemplos negativos. Nuestro sistema de producción actual opera con solo 13,000 ejemplos en el índice negativo, sin dejar de identificar con éxito el daño potencial.   

Para desarrollar el índice positivo, utilizamos una muestra seleccionada del historial de chat de usuarios sin historial de infracciones a las Normas de la comunidad relacionadas con la seguridad y con un compromiso positivo constante y a largo plazo en Roblox. Al utilizar esta muestra seleccionada del historial de chat de Roblox, en lugar de conjuntos de datos de texto genéricos, pudimos ayudar a Sentinel a aprender nuevos patrones y estilos de lenguaje específicos de Roblox. Esto ayuda al sistema a hacer comparaciones más precisas, lo que reduce los falsos positivos y le permite diferenciar mejor entre la comunicación típica de Roblox y la comunicación infractora.

El índice negativo se basa en conversaciones revisadas por nuestros moderadores humanos, donde hemos encontrado pruebas claras de infracciones a la política de protección de menores (y sobre las cuales ya tomamos medidas). Cuando las interacciones de un usuario muestran una actividad consistente y preocupante, etiquetamos fragmentos específicos de esas conversaciones como ejemplos de comunicación perjudicial. Esos segmentos etiquetados se transforman en vectores de incrustación y se agregan al índice negativo. Con esta modelo de entrenamiento, Sentinel aprende a no solo identificar ciertas palabras o frases: aprende de los patrones contextuales y las progresiones que siguen las conversaciones reales con intención dañina. Con esto, el sistema puede reconocer comunicaciones dañinas que nuestros otros sistemas de moderación de IA pueden no reconocer, incluso cuando parecen sutiles.

Por ejemplo, mensajes simples como “Hola, ¿cómo estás?”coincidirían con el índice positivo porque el lenguaje es benigno. Un mensaje como “¿De dónde eres?”coincidiría con el índice negativo porque concuerda con los patrones de posibles conversaciones de grooming. El sistema compara los nuevos mensajes con estos índices y, si percibe a un usuario que pregunta “¿De dónde eres?”puede comenzar a recopilar más información para ver si la conversación se torna negativa. Aunque un mensaje no sería suficiente para indicar la necesidad de revisión humana, un patrón continuo sí lo sería.

Medición contrastiva

Este enfoque de medición contrastiva está inspirado en el modelo SimCLR, un marco de aprendizaje autodirigido que utiliza la medición contrastiva para entrenar modelos de representación de imágenes sin datos etiquetados. Adaptamos esta técnica para trabajar con datos de texto y voz, lo que permite a Sentinel comprender lo que dice un usuario y cómo se ajusta o se desvía de los patrones conocidos. Esto funciona en tres etapas: puntaje de interacción, monitoreo de patrones y toma de medidas.

Medición de interacciones individuales: cada mensaje se convierte en una incrustación o un vector que captura las características semánticas y de comunicación de la acción. Sentinel compara la incrustación con los índices positivo y negativo. Usando la similitud de coseno, el sistema mide a qué índice se acerca más la interacción.

Si la interacción está más alineada con los patrones dañinos en el índice negativo, recibe un indicador de mayor riesgo. Los mensajes que no se alinean significativamente con patrones de comunicación seguros o dañinos se filtran, por lo que el sistema puede centrarse solo en las interacciones que llevan una señal potencial. Esto puede ayudar a reducir los falsos positivos y mejorar la precisión de la medición de las interacciones a lo largo del tiempo. 

Monitoreo de patrones con asimetría, no solo promedios: los infractores a menudo enmascaran su intención mezclándola con contenido inofensivo. Si simplemente promediamos la medición de un usuario a lo largo del tiempo, los mensajes negativos que queremos detectar podrían perderse entre el ruido. En cambio, Sentinel analiza la distribución de las mediciones a lo largo del tiempo y mide la asimetría estadística, una forma de detectar si hay mensajes raros y de alto riesgo que aumentan el perfil de riesgo.

Esto nos ayuda a detectar los indicios hacia una comunicación peligrosa, incluso si la mayoría de las interacciones parecen benignas. Cuando analizamos la asimetría, también corregimos el volumen. Los usuarios altamente activos pueden parecer más riesgosos porque su comunicación muestra un mayor número absoluto de coincidencias. Al enfatizar la asimetría estadística en lugar del volumen general, podemos evitar falsos positivos que involucren a usuarios conversadores, pero que cumplen con las normas. Con esto, Sentinel, además de ser escalable, es más preciso y capaz de procesar grandes flujos de comunicación para encontrar las señales poco comunes, pero críticas, que nos ayudan a detectar la intención de causar daño. 

Pasar de la señal a la acción: a medida que se miden más interacciones, el sistema crea un perfil de riesgo dinámico. Cuando el patrón de un usuario muestra una fuerte alineación con la comunicación con intención perjudicial o una inclinación hacia esa dirección, Sentinel activa una señal para una revisión e investigación más profundas.