오픈 소스 음성 안전 모델에 대한 추가 언어 지원
-
Roblox는 오픈소스 음성 안전 분류 모델을 업데이트하여 매개변수를 94,600에서 120,200으로 늘리고 추가적으로 7개 언어를 지원하게 되었습니다.
-
첫 버전으로 출시한 분류 모델 이후, 영어 음성 채팅 데이터에 대한 정확도는 1%의 가성 양성률로 59.1%의 재현율을 기록했습니다. 이는 이전 릴리스의 30.9% 재현율에 비해 92% 개선된 수치입니다.
안전은 Roblox가 수행하는 모든 일의 기초가 되는 요소입니다. Roblox는 약 20여 년에 걸쳐 견고한 안전 시스템을 구축해 왔으며, 이를 기술의 변화에 발맞추어 지속적으로 업그레이드하며 발전시켜 왔습니다. 2024년에는 40건 이상의 안전성 관련 개선 사항이 출시된 바 있으며, 여기에는 오늘 업데이트된 자녀 보호 기능에 대한 개편이 포함됩니다. 또한 업계 최초의 오픈 소스 음성 안전 분류 모델을 출시하기도 했으며, 이 기능은 이미 2만 3000회 이상의 다운로드를 기록했습니다. 오늘은 더 높은 정확성을 보이며 더 많은 언어를 지원하는 업데이트된 버전을 출시합니다.
본 분류 모델을 포함한 Roblox의 사용자 보호용 안전 시스템은 AI 모델을 기반으로 운영됩니다. AI 안전 분야의 진보를 공유하는 것은 업계 전체를 위한 일이기도 하므로, Roblox는 이 중 일부를 오픈 소스로 공개하고자 합니다. 이러한 이유로 Roblox는 최근 루스트(ROOST, 오픈 소스 안전 도구를 홍보하여 디지털 안전의 중요한 영역을 다루는 새로운 비영리 단체)에 창립 파트너로서 가입하기도 했습니다.
사용자 보호의 측면에서 전 세계적으로 매일 플랫폼에서 발생하는 콘텐츠 및 상호작용의 양을 관리하기 위해 AI는 필수적인 요소입니다. Roblox가 만든 모델은 확실히 이러한 요구를 충족하는 데 도움이 됩니다. 한 예로 2024년 4분기에 Roblox 사용자는 3000억 개의 비디오, 오디오, 텍스트, 음성 채팅, 아바타, 3D 체험 등의 콘텐츠를 업로드했는데, 이중 단 0.01%만이 정책을 위반한 것으로 감지되었습니다. 그리고 정책을 위반한 콘텐츠의 거의 대부분은 자동으로 이루어지는 사전 검토를 통해 삭제되어, 사용자에게 제공되는 것을 막을 수 있었습니다.
본 업데이트를 통해 Roblox는 음성 안전 분류 모델의 오픈소스 버전을 업데이트하여 정확도를 높이는 동시에, 더 다양한 언어의 콘텐츠 검토를 지원하게 되었습니다. 새로운 모델로 수행할 수 있는 일들은 다음과 같습니다.
-
모델에 적용된 다국어 데이터 학습을 토대로 스페인어, 독일어, 프랑스어, 포르투갈어, 이탈리아어, 한국어, 일본어 등 7개 언어로 위반 사항을 감지합니다.
-
전반적인 재현율이 이전 릴리스의 30.9%에서 59.1%로 92% 향상되었으며, 가성 양성률도 낮습니다.
-
최대 8300개의 요청(대부분은 위반 사항이 없는)을 초당 처리할 수 있을 만큼 대규모 처리에 최적화되어 있습니다.
첫 번째 모델이 출시된 이래로 미국 사용자 음성의 시간당 규정 위반 신고율은 50% 이상 감소되었습니다. 또한 이를 통해 하루에 수백만 분 분량의 음성 채팅을 검열 담당자보다 더 정확하게 검열할 수 있었습니다. Roblox는 앞으로도 안전 시스템을 끊임없이 개선해 나가며, 오픈 소스 모델의 버전도 지속적으로 업데이트할 것입니다.
효율적인 다국어 음성 안전 분류 모델
Roblox 최초의 오픈 소스 음성 안전 분류 모델은 기계로 분류된 영어 음성 채팅 오디오 샘플을 미세 조정하며 WavLM 기반+ 모델을 기반으로 개발되었습니다. 그리고 이러한 엔드투엔드 아키텍처의 고무적인 결과에 힘입어 맞춤형 아키텍처에 대한 추가 실험이 이루어졌습니다. 모델의 복잡성 및 정확성을 최적화하기 위해, 개발 팀은 대규모 추론 서빙에 적합한 지식 증류 기법을 활용했습니다. Roblox의 새로운 분류 모델은 이러한 기본적인 구성 요소를 사용하며, 데이터 사용과 아키텍처 개선 작업을 확장해 갑니다.
다국어 데이터를 통한 학습으로 인해, Roblox의 단일 분류 모델은 플랫폼의 주요 8개 언어를 원활하게 지원하게 되었습니다. 또한 본 모델은 학습의 개선을 통해 첫 번째 버전보다 일반적인 추론 시나리오에서 더 높은 정확성을 보이며 실행 속도 또한 20~30% 더 빨라졌습니다.
새로운 음성 안전 분류 모델은 여전히 WavLM 아키텍처를 기반으로 하지만, 계층 구성은 이전 릴리스 및 WavLM의 사전 학습된 모델과 다릅니다. 개발 팀은 특별히 변환기 계층의 내부 시간 분해능을 줄이기 위해 추가적인 합성곱층을 추가했습니다.전체적으로 새로운 모델 아키텍처는 12만 200개의 매개변수를 가지고 있으며, 이는 이전 버전의 9만 4600개에 비해 27% 증가한 수치입니다. 이러한 증가에도 불구하고, 새로운 모델은 4~15초 입력 세그먼트에 사용할 경우 컴퓨팅 시간이 20~30% 더 적게 소모됩니다. 이것이 가능한 이유는 모델이 입력 신호를 이전보다 더 짧은 표현으로 압축하기 때문입니다.
다양한 레이블링 전략 활용
모델의 엔드투엔드 지도 학습에는 선별된 오디오 및 클래스 레이블 쌍이 필요합니다. 개발 팀은 레이블링된 데이터의 안정적인 흐름을 보장하기 위해 데이터 파이프라인을 대폭 개선했습니다. 학습 자료의 기반은 지원 언어로 구성된 10만 시간 이상 음성의 대규모 기계 레이블링 데이터 세트입니다. 개발 팀은 음성 내용을 자동으로 필사하여, 기대되는 정책 및 유해성 범주를 공유하는 사내 텍스트 기반 유해성 분류기를 활용해 검토를 진행했습니다. 데이터 수집 시에는 예외적인 사례와 일반적이지 않은 정책 위반을 더 잘 감지할 수 있도록 무해한 발언보다 유해한 콘텐츠를 높은 확률로 샘플링하고 있습니다.
음성 기록과 텍스트 기반 분류를 기반으로 한 레이블링은 음성 채팅 콘텐츠에서 발생하는 미묘한 차이를 완벽하게 포착하기가 어렵습니다. 이에 개발 팀은 실제 인력이 레이블링한 데이터를 활용해 이전 학습 단계의 모델을 미세 조정하는 작업을 수행했습니다. 분류 작업은 동일하지만 후자의 학습 단계는 판단의 경계를 구체화하고 음성 채팅에 특화된 표현에 대한 대응을 강조하는 데 도움이 됩니다. 이는 실제 인력이 레이블링한 귀중한 사례로부터 최대한의 이점을 얻을 수 있도록 하는 일종의 커리큘럼 학습입니다.
엔드투엔드 모델 학습의 한 가지 과제는 시간이 지남에 따라 레이블링 정책이 변경될 경우 타깃 라벨이 더 이상 사용되지 않을 수 있다는 점입니다. 따라서 허용하는 음성에 대한 정책을 개선함에 따라 기존의 레이블링 표준을 사용하는 데이터에 대한 특별한 처리가 필요합니다. 이를 위해 개발 팀은 모델이 현재 음성 채팅 정책에 맞지 않는 데이터 세트에서도 학습할 수 있도록 하는 멀티태스크 방식을 활용했습니다. 여기에는 기존 정책에 대해 별도의 분류 헤드를 전담하도록 함으로써 모델 트렁크가 타깃 라벨이나 기본 헤드에 영향을 주지 않고 기존 데이터 세트에서 학습할 수 있도록 하는 조치가 포함됩니다.
보다 손쉬운 배포를 위한 교정된 모델
분류 모델을 사용하려면 작업 지점을 결정하고 작업 요구 사항에 따라 모델의 민감도를 조정해야 합니다. 보다 손쉬운 모델의 배포를 위해, 개발 팀은 음성 채팅 검열에 맞추어 모델의 출력을 교정하는 작업을 진행했습니다. 또한 보류 데이터 세트에서 구간별 선형 변환을 추정했으며, 이러한 작업을 각 출력 헤드와 지원 언어에 대해 각각 별도로 수행했습니다. 이러한 변환은 모델 증류 중에 적용되었으며, 이를 통해 최종 모델이 기본적으로 교정될 수 있도록 했습니다. 이로 인해 추론 중 사후 처리의 필요를 제거할 수 있었습니다.
새로운 오픈 소스 모델을 커뮤니티와 공유하게 되어 무척 기쁩니다. 앞으로도 계속해서 업데이트 소식을 전해 드리겠습니다.