Roblox 센티널(Sentinel)오픈 소스 공개: 선제적 위험 감지를 위한 새로운 접근법
비정상 채팅 패턴을 빠르게 감지하는 AI 기술
- 오늘날 Roblox에서는 매일 1억 명이 넘는 다양한 연령대의 사용자가 안전한 공간을 즐기며 긍정적인 경험을 하고 있습니다.
- 특히 저연령 사용자를 위해 최대한 안전한 시스템을 제공하고자 최선을 다하고 있습니다. 이를 위해 매우 보수적인 정책을 시행하고 있으며, AI를 활용하여 채팅에서 감지되는 개인 식별 정보 등의 부적절한 메시지(신뢰할 수 있는 인맥일 경우 제외)를 필터링합니다. 또한, 콘텐츠 규정 준수 여부를 선제적으로 확인하고 채팅에서 현실 세계의 실제 이미지 공유를 허용하지 않습니다.
- 물론 어떤 시스템도 완벽하지는 않습니다. 현재 업계의 가장 큰 과제 중 하나는 잠재적인 아동 학대와 같은 중대한 위험을 감지하는 것입니다. 친근한 대화와 지지적인 메시지 전송이 특히 서로 다른 연령대의 사용자들 사이에서 지속적으로 발생할 경우, 이는 오랜 대화 기록에 따라 다른 의미를 가질 수 있습니다.
- Roblox 센티널은 대조 학습을 기반으로 Roblox에서 개발한 AI 시스템입니다. 이 시스템은 아동 학대와 같은 잠재적인 아동 위험에 대한 조기 신호를 감지하는 데 도움이 되며, 이를 통해 더욱 신속하게 조사를 수행하고 필요한 경우 법 집행 기관에 보고할 수 있습니다.
- 2025년 상반기에 Roblox는 센티널을 활용해 약 1200건의 아동 착취 시도 신고를 미국 국립아동실종학대방지센터(National Center for Missing and Exploited Children)에 제출할 수 있었습니다. 신고 건은 필터링 메커니즘 및 기타 안전 장치를 우회하려는 시도를 포함합니다.
- Roblox는 더 안전한 인터넷 환경을 조성하는 데 도움이 되고자 센티널을 오픈 소스로 공개하며, 커뮤니티의 참여를 적극적으로 모색하고 있습니다.
친구들과 시간을 보내고 다른 플레이어들과 실력을 겨루는 것은 Roblox 경험의 핵심 요소이며, 이러한 활동의 중심에는 커뮤니케이션이 있습니다. 오늘날 Roblox에서는 매일 1억 1100만 명이 넘는 사용자가 활동하고 있으며, 이들은 평균 61억 건의 채팅 메시지를 보내고 수십 개 언어로 110만 시간 분량의 음성 대화를 생성합니다. 이러한 소통은 현실 세계를 반영합니다. 대부분은 일상적인 채팅으로, 가벼운 대화부터 게임 플레이에 대한 토론까지 다양한 형태이지만, 소수의 악의적인 사용자들은 시스템을 우회하여 타인에게 해를 끼치려고 시도합니다.
지난달 Roblox는 연령 기반 커뮤니케이션에 대한 비전을 공개했으며, 특히 저연령 사용자를 위해 최대한 안전한 시스템을 제공하고자 최선을 다하고 있습니다. 이에 따라 채팅에서의 사용자 간 이미지 또는 동영상 공유는 허용되지 않습니다. 현 시스템은 완벽하지는 않지만 지속적으로 개선되고 있으며, 특히 전화번호 및 사용자 이름과 같은 개인 식별 정보는 사전에 차단하도록 설계되어 있습니다. 또한 연령 확인을 거치지 않은 사용자 간의 채팅은 엄격하게 필터링되며 13세 미만 사용자에게는 허용되지 않습니다. Roblox는 아는 사람들과의 더욱 자유로운 채팅을 위해 얼굴 나이 추정을 요구하는 세계 최대 규모의 플랫폼 중 하나입니다. Roblox의 목표는 온라인 게임 보안 분야에서 전 세계적인 리더가 되는 것이며, 핵심 보안 기술의 오픈 소스화를 위해 헌신하고 있습니다.
오늘 Roblox는 최신 오픈소스 모델인 센티널을 출시하게 되었습니다. 센티널은 아동 학대로 이어질 수 있는 상호작용을 감지하는 데 도움이 되는 AI 시스템으로, 문제가 명백해지기 훨씬 전에 미묘한 신호를 조사하고 조기에 패턴을 감지하며 필요할 경우 법 집행 기관에 신고할 수 있도록 지원합니다.
센티널은 2024년 말부터 Roblox에서 운영되어 왔으며, 오픈소스 안전 툴킷의 최신 추가 기능입니다. 2025년 상반기에 Roblox가 감지한 사례의 35%는 센티널을 활용한 선제적 접근 방식에 의한 것이었으며, 많은 경우 신고가 접수되기 전에 이를 포착했습니다. 센티널은 다른 규정 준수 확인 시스템과의 결합을 통해 심각한 위반 행위를 감지하고 그에 대응하기 위한 기능의 범위를 확장할 수 있습니다.
현재 직면한 과제
아동 학대는 업계 전반의 과제이며, 해결을 위해서는 새로운 기술과 열린 협업이 매우 중요합니다. 온라인 그루밍은 신뢰와 정서적 유대감을 체계적으로 구축해 궁극적으로 착취를 목표로 하는 행위로, 본질적으로 미묘하고 점진적인 과정입니다. 이러한 상호작용은 평소 보기 드물며, 종종 친근한 대화나 지지적인 발화, 공통된 관심사로부터 시작됩니다. 즉 처음에는 무해해 보이는 발화도 장기적인 대화 기록 속에서 다른 의미를 갖게 될 수 있습니다. 그러나 악의적인 행위자들은 종종 미묘하고 간접적이거나 암호화된 언어를 사용해 패턴을 의도적으로 감지하기 어렵게 만드므로, 인간 검토자조차도 패턴을 감지하기가 쉽지 않습니다. Roblox의 채팅 감지 시스템은 이러한 종류의 시스템 회피 시도에 발맞춰 끊임없이 발전하고 있습니다. 그러나 그루밍을 위한 훈련 데이터는 아직 많지 않으므로 머신러닝 시스템의 훈련은 여전히 쉽지 않은 일입니다.
선제적 영향 및 운영을 위한 인사이트
센티널은 현재 대규모 프로덕션 환경에서 운영되고 있습니다. 2025년 상반기에 Roblox는 센티널이 제공하는 선제적인 기능에 힘입어 약 1200건의 신고를 미국 국립아동실종학대방지센터(National Center for Missing and Exploited Children, NCMEC)에 제출할 수 있었습니다. 아직도 개선의 여지가 있긴 하지만, 센티널의 조기 감지 기능은 이미 잠재적인 악의적 행위자를 신속하게 식별하고 조사하는 데 실질적인 도움을 주고 있습니다. 이는 사용자들이 신고하기도 전에, 아직 표면에 드러나지 않은 위협 신호들을 감지해내는 단계에서 이루어집니다.
센티널이 감지한 사례를 조사하고 개입하는 데에는 인간 전문가의 역할이 필수적입니다. 이를 위해, 주로 전직 CIA나 FBI 요원 등으로 구성된 숙련된 분석가들이 센티널에서 잠재적 위반 사례로 판단한 콘텐츠를 면밀히 검토합니다. 이 분석가들이 내리는 결정은 피드백 루프를 형성해 사례, 지수, 학습 데이터 세트를 지속적으로 개선하고 업데이트하는 데 기여합니다. 이러한 인간 참여형 프로세스는 유해성 감지를 회피하려는 악의적 행위자들의 새로운 수법과 진화하는 패턴에 효과적으로 대응하고 적응하는 데 핵심적인 역할을 합니다.
센티널은 Roblox의 다층적 안전 시스템의 중요한 구성 요소로, 혁신적인 AI 툴과 수천 명의 인간 전문가의 협력을 결합한 시스템입니다. 이는 현재 Roblox 오픈소스 안전 툴킷의 일부로 포함되어 있습니다. Roblox는 더 안전한 디지털 세상을 만드는 것이 공동의 책임이라고 믿습니다. 센티널과 같은 안전 시스템을 오픈소스로 공개하고, 회사의 접근 방식을 공유하며, 루스트(ROOST, Robust Open Online Safety Tools) 및 테크 코얼리션(Tech Coalition)의 랜턴(Lantern) 프로젝트와 같은 조직의 창립 멤버로 활동함으로써, 온라인 안전 관행과 이를 기반으로 하는 온라인 커뮤니티의 공동 발전에 기여하고자 합니다.
"현재 많은 플랫폼들은 온라인 유해 요소를 식별하고 예방하는 데 필요한 고급 도구를 갖추지 못하고 있으며, 이러한 현상은 특히 아동을 주요 대상으로 하는 플랫폼에서 더욱 두드러집니다. 루스트는 사용자 보호에 힘쓰는 모든 이들이 우수한 안전 기능을 활용할 수 있도록 돕고자 하며, Roblox가 신뢰와 안전 분야에서 보다 개방적인 도구를 제공하게 되어 매우 기쁘게 생각합니다."
센티널에 대한 Roblox의 장기적인 비전은 단순한 대화 그 이상입니다. 임베딩과 대조 학습 기반의 접근 방식은 다양한 방식으로 유연하게 적용될 수 있습니다. Roblox는 이 기술을 텍스트, 이미지, 동영상 등 다양한 형태의 사용자 상호작용에 확장 적용하며, 멀티모달 이해 역량을 적극적으로 탐색하고 개발하고 있습니다. 이러한 다양한 신호들을 통합 분석함으로써 사용자 행동을 보다 포괄적이고 정밀하게 이해하고, 단일 모드 시스템에서는 놓치기 쉬운 잠재적인 안전 리스크까지도 더 효과적으로 식별할 수 있기를 기대합니다.
기술로 들여다본 센티널: 센티널이 선제적 감지를 실현하는 방식
센티널은 해악의 의도가 실제 행동으로 이어지기 전에 신속히 대응할 수 있도록 거의 실시간으로 전체 분석 파이프라인을 실행해야 합니다. 이 작업은 매일 60억 건이 넘는 채팅 메시지를 대상으로 대규모로 이루어집니다. 센티널은 텍스트 채팅을 1분 단위의 스냅샷 형태로 지속적으로 캡처하며, 머신러닝(ML)을 통해 메시지를 자동 분석합니다. 분석의 초점은 그루밍이나 아동 학대와 같은 잠재적 피해를 식별하는 데 맞춰져 있습니다. 또한 이 메시지들을 시간에 따라 집계하고, 이를 통해 우려되는 사례나 패턴을 도출함으로써 인간 분석가가 보다 정확하게 평가하고 조사할 수 있도록 지원합니다.
정해진 규칙이나 라벨링된 예시에 의존하는 기존 도구들과 달리, 센티널은 자체적인 감독 학습을 통해 실제로 발생하는 통신 패턴을 파악하고 이를 일반화하는 방식으로 학습합니다. 이를 통해 센티널은 새롭고 끊임없이 진화하는 위협까지도 효과적으로 식별할 수 있습니다.
개발팀은 이를 실현하기 위해 두 가지 지수를 개발했습니다. 하나는 안전하고 무해한 메시지 및 상호작용으로 구성된 '긍정 지수', 다른 하나는 아동 보호 정책을 위반한 것으로 판단되어 삭제된 커뮤니케이션을 모은 '부정 지수'입니다. 이처럼 대조적인 접근 방식은 시스템이 과거에 감지된 패턴과 정확히 일치하지 않더라도, 새로운 위협을 일반화하고 감지할 수 있도록 돕습니다. 센티널의 주요 강점 중 하나는 대량의 예시 데이터를 필요로 하지 않는다는 점입니다. 이는 특히 부정적 예시 데이터가 상대적으로 드물다는 점에서 매우 중요합니다. 현재 운영 중인 시스템은 부정 지수에 단 1만 3000개의 예시만을 사용하면서도, 잠재적 위험을 성공적으로 식별해내고 있습니다.
긍정 지수
긍정 지수를 구축하기 위해, Roblox 내에서 안전 관련 커뮤니티 규정 위반 이력이 없고 일관되며 장기적으로 긍정적인 참여를 보여온 사용자의 채팅 기록 샘플이 엄선되었습니다. 일반적인 텍스트 데이터 세트가 아닌, Roblox 특유의 맥락을 담은 실제 채팅 데이터를 활용함으로써, 센티널은 새로운 속어나 Roblox 고유의 언어 스타일과 패턴을 효과적으로 학습할 수 있었습니다. 이를 통해 시스템은 보다 정밀한 비교를 수행하고, 오탐률을 줄이며, 일반적인 Roblox 내 소통과 위반 행위를 더욱 정확하게 구분할 수 있게 되었습니다.
부정 지수
부정 지수는 인간 관리자들이 검토한 대화 중, 아동 학대 방지 정책 위반이 명확하게 확인되어 이미 조치가 취해진 사례를 기반으로 구축됩니다. 사용자의 상호작용에서 지속적으로 우려스러운 활동이 관찰되는 경우, 해당 대화의 특정 스니펫(발췌)을 유해한 커뮤니케이션의 예시로 분류합니다. 이처럼 분류된 세그먼트는 임베딩 벡터로 변환되어 부정 지수에 추가됩니다. 이러한 학습 과정을 통해 센티널은 단순히 특정 단어나 문구를 감지하는 데 그치지 않고, 실제로 유해한 의도를 가진 대화에서 나타나는 맥락적 패턴과 그 진행 양상을 파악할 수 있습니다. 덕분에 기존의 AI 규정 준수 시스템이 놓칠 수 있는 미묘한 형태의 유해한 소통도 효과적으로 인식할 수 있습니다.
예를 들어, \"안녕하세요?\"와 같은 간단한 인사말은 무해한 언어로 간주되어 긍정 지수와 일치합니다. 반면, \"어디에서 오셨어요?\"와 같은 메시지는 잠재적인 그루밍 대화 패턴과 유사하기 때문에 부정 지수와 일치합니다. 센티널은 이러한 긍정 및 부정 지수와 새로운 메시지를 비교하며, 사용자가 \"어디에서 오셨어요?\"라고 묻는 경우, 대화가 부정적인 방향으로 이어지는지 판단하기 위해 추가적인 메시지를 계속 모니터링합니다. 단일 메시지만으로는 인간 검토를 위한 경고로 이어지지 않지만, 의심스러운 패턴이 반복될 경우 경고 대상으로 분류될 수 있습니다.
대조 학습 기반 측정
이 대조적 측정 접근 방식은 라벨링된 데이터 없이 대조 학습을 통해 이미지 표현 모델을 학습하는 자기 지도 학습 프레임워크인 SimCLR의 아이디어를 반영한 것입니다. 개발팀은 이 기법을 텍스트와 음성 데이터에도 확장 적용하여, 센티널이 사용자의 발화를 이해하고 그것이 알려진 패턴과 얼마나 일치하거나 벗어나는지를 파악할 수 있도록 했습니다. 이 과정은 세 단계—상호작용 점수화, 패턴 추적, 그리고 조치 실행—로 이루어집니다.
개별 상호작용 측정: 각 메시지는 해당 행동의 의미적·의사소통적 특성을 포착한 임베딩(벡터 표현)으로 변환됩니다. 센티널은 이 임베딩을 긍정 및 부정 지수와 비교한 뒤, 코사인 유사도를 활용해 해당 상호작용이 어느 쪽 인덱스에 더 가까운지를 측정합니다.
상호작용이 부정 지수의 유해한 패턴과 더 유사할수록 더 높은 위험 지표가 부여됩니다. 반면, 안전하거나 유해한 커뮤니케이션 패턴과 유의미하게 일치하지 않는 메시지는 필터링되어 분석 대상에서 제외됩니다. 이러한 방식은 시스템이 실제로 위험 신호를 나타내는 상호작용에 집중할 수 있도록 하며, 오탐을 줄이고 시간에 따른 상호작용 측정의 정확도를 높이는 데 기여합니다.
평균이 아닌 편향도를 활용한 패턴 추적: 악의적인 사용자들은 종종 무해한 콘텐츠 속에 의도적으로 유해한 메시지를 교묘히 섞어 넣습니다. 만약 시간에 따른 사용자 측정값을 단순히 평균내는 방식만 사용한다면, 이러한 부정적인 메시지는 노이즈에 가려 감지되지 않을 수 있습니다. 센티널은 시간 경과에 따른 측정값의 분포를 분석하고, 통계적 편향도를 활용해 이상 신호를 식별합니다. 이 접근 방식은 드물지만 고위험 메시지가 사용자 위험 프로필을 높이는지를 알아내는 데 효과적입니다.
이러한 방식은 대부분의 상호작용이 무해하게 보일지라도, 위험한 의사소통으로 이어질 수 있는 초기 징후를 감지하는 데 도움을 줍니다. 편향도를 분석할 때는 사용자의 전체 소통량도 함께 고려합니다. 활동량이 많은 사용자는 절대적인 유사 메시지 수가 많아 더 위험하게 보일 수 있기 때문입니다. 하지만 센티널은 전체 메시지 수보다는 통계적 편향에 초점을 맞춤으로써, 단순히 활발하게 대화하지만 규칙을 준수하는 사용자를 오탐으로 분류하는 일을 줄일 수 있습니다. 이 접근 방식은 센티널의 정밀도와 확장성을 모두 높여, 방대한 커뮤니케이션 흐름 속에서도 해로운 의도를 감지하는 데 중요한, 드물지만 결정적인 신호를 효과적으로 포착할 수 있게 해줍니다.
신호를 행동으로: 더 많은 상호작용이 측정될수록, 시스템은 사용자에 대한 역동적인 위험 프로필을 점점 정교하게 구축해 나갑니다. 만약 사용자의 커뮤니케이션 패턴이 유해한 의도를 가진 메시지와 강하게 유사하거나, 그 방향으로 점차 기울어지는 경향을 보인다면, 센티널은 심층 검토 및 조사를 위한 경고를 발령합니다.