Presentamos más idiomas para nuestro modelo de seguridad de voz de código abierto.

  • Estamos actualizando nuestro clasificador de seguridad de voz de código abierto, incrementando sus parámetros de 94,600 a 120,200 y ampliándolo a siete idiomas adicionales.

  • Desde la primera versión del clasificador, hemos aumentado la precisión a una exhaustividad del 59.1% en datos de chat de voz en inglés con una tasa de falsos positivos del 1%. Esta es una mejora del 92% con respecto a la versión anterior del 30.9%.

Promover la seguridad y la civilidad siempre ha sido fundamental para todo lo que hacemos en Roblox. Hemos pasado casi dos décadas construyendo sistemas de seguridad sólidos, y los estamos ampliando y evolucionando continuamente a medida que nueva tecnología está disponible. En 2024, implementamos más de 40 mejoras de seguridad, incluyendo nuestros Controles parentales renovados, que actualizamos de nuevo hoy. También lanzamos uno de los primeros clasificadores de seguridad de voz de código abierto de la industria, que ha sido descargado más de 23,000 veces Hoy, lanzamos una versión actualizada que es aún más precisa y funciona en más idiomas.

Muchos de los sistemas de seguridad que ayudan a proteger a nuestros usuarios, incluido este clasificador, son impulsados por modelos de IA. Hacemos de código abierto algunos de estos modelos porque sabemos que compartir los avances en seguridad de la IA beneficia a toda nuestra industria. Esa es también la razón por la que recientemente nos unimos a ROOST como socio fundador, una nueva organización sin fines de lucro dedicada a abordar áreas importantes en la seguridad digital mediante la promoción de herramientas de seguridad de código abierto.

Al gestionar el volumen de contenido e interacciones que ocurren en nuestra plataforma todos los días en todo el mundo, la IA es un elemento esencial para mantener a los usuarios seguros. Estamos seguros de que los modelos que hemos construido nos ayudan a respaldar nuestras necesidades. En el cuarto trimestre de 2024, por ejemplo, los usuarios de Roblox cargaron 300 mil millones de piezas de contenido. Solo el 0.01% de esos miles de millones de videos, audios, textos, chats de voz, avatares y experiencias 3D fueron detectados como infracciones de nuestras políticas. Y casi todo ese contenido infractor fue preseleccionado y eliminado automáticamente antes de que los usuarios lo vieran.

Hemos actualizado la versión de código abierto de nuestro clasificador de seguridad de voz para hacerlo más preciso y para ayudarnos a moderar contenido en más idiomas. El nuevo modelo:

  • Detecta infracciones en siete idiomas adicionales: español, alemán, francés, portugués, italiano, coreano y japonés, gracias al entrenamiento en datos multilingües.

  • Tiene una tasa de exhaustividad general aumentada del 59.1%, una mejora del 92% con respecto a la exhaustividad del 30.9% en la versión anterior, con bajas tasas de falsos positivos.

  • Está optimizado para servir a escala, sirviendo hasta 8,300 peticiones (la mayoría de las cuales no contienen infracciones) por segundo en el punto máximo.

Desde el lanzamiento del primer modelo, hemos visto una reducción en las tasas de denuncias de abuso entre los usuarios de los Estados Unidos de más del 50% por hora de habla. También nos ha ayudado a moderar millones de minutos de chat de voz por día de forma más precisa que los moderadores humanos. Nunca dejamos de avanzar en nuestros sistemas de seguridad y también continuaremos actualizando la versión de código abierto.

Clasificador de seguridad de voz multilingüe eficiente

Nuestro clasificador de seguridad de voz inicial de código abierto se basó en un modelo base+ WavLM, ajustado con muestras de audio de chat de voz en inglés etiquetadas por máquina. Los resultados alentadores de esta arquitectura de extremo a extremo condujeron a más experimentos con una arquitectura personalizada. Utilizamos la destilación del conocimiento para optimizar la complejidad y la precisión del modelo, lo cual resulta atractivo para el servicio de inferencia a gran escala. Nuestro nuevo clasificador utiliza estos bloques fundamentales de construcción, escalando y ampliando el trabajo en uso de datos y refinamientos arquitectónicos.

Mediante el entrenamiento sobre datos multilingües, nuestro único modelo de clasificación puede operar sin problemas en cualquiera de nuestros ocho idiomas más compatibles. Y nuestras mejoras en el entrenamiento significan que el modelo es tanto más preciso como entre un 20% y un 30% más rápido de ejecutar en un escenario de inferencia típico que la primera versión.

El nuevo clasificador de seguridad de voz todavía se basa en la arquitectura WavLM, pero la configuración de las capas difiere de la versión anterior y de las de los modelos preentrenados de WavLM. En particular, añadimos una capa adicional de convolución para reducir la resolución de tiempo interna de las capas transformadoras. En total, nuestra nueva arquitectura de modelo tiene 120,200 parámetros, un aumento del 27% en comparación con los 94,600 de la versión anterior. A pesar de este aumento, el nuevo modelo consume entre un 20% y un 30% menos de tiempo de cálculo cuando se utiliza con segmentos de entrada de 4 a 15 segundos. Esto es posible porque el modelo comprime la señal de entrada en una representación más corta que antes.

Utilizamos una variedad de estrategias de etiquetado

El entrenamiento supervisado de un modelo de extremo a extremo requiere pares curados de audio y etiquetas de clase. Realizamos mejoras significativas en nuestro flujo de datos que aseguraron un flujo constante de datos etiquetados. La base del material de entrenamiento es un extenso conjunto de datos etiquetado por máquina de más de 100,000 horas de habla que comprenden los idiomas admitidos. Transcribimos automáticamente el habla y la pasamos por nuestro clasificador de toxicidad basado en texto interno, el cual comparte la política deseada y las categorías de toxicidad. La recopilación de datos muestrea contenido abusivo con una probabilidad mayor que el habla benigna para capturar mejor los casos límite y las infracciones de políticas menos comunes.

Las etiquetas basadas en transcripciones de voz y clasificación basada en texto no pueden capturar completamente los matices observados en el contenido del chat de voz. Así que utilizamos datos etiquetados por humanos para ajustar el modelo a partir de la etapa de entrenamiento anterior. Si bien la tarea de clasificación es la misma, esta última etapa de entrenamiento ayuda a refinar los límites de decisión y enfatizar la capacidad de respuesta a expresiones específicas del chat de voz. Esta es una forma de aprendizaje curricular que nos ayuda a sacar el máximo provecho de los valiosos ejemplos etiquetados por los humanos.

Un desafío con la capacitación del modelo de extremo a extremo es que las etiquetas objetivo pueden hacerse obsoletas si la política de etiquetado cambia con el tiempo. Así que a medida que perfeccionamos nuestra política de voz aceptable, necesitamos un manejo especial para los datos que utilizan normas de etiquetado más antiguas. Para esto, utilizamos un enfoque multitarea que permite al modelo aprender de los conjuntos de datos que no coinciden con la política actual de chat de voz. Esto implica dedicar un encabezado de clasificación separado para la política anterior, lo que permite que la parte principal del modelo aprenda del conjunto de datos anterior sin afectar las etiquetas específicas ni el encabezado principal.

Un modelo calibrado para un despliegue más sencillo

Utilizar el modelo de clasificación requiere decidir el punto de operación y emparejar la sensibilidad del clasificador de acuerdo con los requisitos de las tareas. Para facilitar el despliegue del modelo, calificamos las salidas del modelo, sintonizado para moderación del chat de voz. Estimamos transformaciones lineales por partes a partir de un conjunto de datos reservado, haciéndolo por separado para cada encabezado de salida e idioma admitido. Estas transformaciones se aplicaron durante la destilación del modelo, lo que aseguró que el modelo final se calificara nativamente. Esto eliminó la necesidad de posprocesamiento durante la inferencia.

Estamos encantados de compartir este nuevo modelo de de código abierto con la comunidad y esperamos compartir futuras actualizaciones como las tenemos.