Open-Sourcing Roblox Sentinel: Pendekatan Kami untuk Mencegah Risiko Sebelum Terjadi

Menggunakan AI untuk Membantu Mendeteksi Pola Chat yang Janggal Lebih Awal

  • Setiap hari, lebih dari 100 juta pengguna dari segala usia menikmati pengalaman virtual yang aman dan positif di Roblox.
  • Kami berusaha untuk membuat sistem kami seaman mungkin secara default, terutama bagi pengguna termuda kami. Kami melakukan ini dengan panduan kebijakan kami yang sangat konservatif dan memanfaatkan AI untuk menyaring pesan yang tidak pantas dalam chat yang kami deteksi, termasuk informasi identitas pribadi (di luar Koneksi Tepercaya). Kami secara proaktif memoderasi konten dan tidak mengizinkan berbagi foto asli dalam chat.
  • Tentu saja, tidak ada sistem yang sempurna, dan salah satu tantangan terbesar di industri ini adalah mendeteksi bahaya kritis seperti potensi bahaya bagi anak. Chat santai dan pesan dukungan yang awalnya biasa, bisa jadi punya makna lain kalau sudah lama dan melibatkan orang dari usia yang berbeda.
  • Kami telah mengembangkan Roblox Sentinel, sistem AI yang dibangun berdasarkan pembelajaran kontras yang membantu kami mendeteksi tanda-tanda awal potensi bahaya bagi anak, seperti grooming, yang memungkinkan kami untuk menyelidiki lebih cepat dan, jika relevan, melaporkan kepada penegak hukum.
  • Pada semester pertama tahun 2025, Sentinel membantu tim kami untuk melaporkan sekitar 1.200 potensi bahaya eksploitasi anak ke National Center for Missing and Exploited Children. Ini termasuk upaya untuk mengakali mekanisme filter kami dan perlindungan lainnya.
  • Kami sangat antusias menjadikan Sentinel sebagai open source, dan kami secara aktif mendorong interaksi dalam komunitas, yang kami harapkan akan membantu membangun internet yang lebih aman.

Bermain bersama teman dan bersaing dengan pemain lain adalah komponen utama Roblox, dan komunikasi adalah inti dari aktivitas tersebut. Faktanya, setiap hari, lebih dari 111 juta pengguna masuk ke Roblox, tempat komunitas mengirim rata-rata 6,1 miliar pesan chat dan melakukan komunikasi suara selama 1,1 juta jam dalam puluhan bahasa. Komunikasi ini mencerminkan dunia nyata—sebagian besar adalah obrolan sehari-hari, dari percakapan santai hingga membahas gameplay, tetapi sejumlah kecil pelaku kejahatan berusaha mengakali sistem kami dan mungkin berusaha membahayakan orang lain.

Bulan lalu, kami menyampaikan visi kami terkait komunikasi berbasis usia. Kami berusaha untuk membuat sistem kami seaman mungkin secara default, terutama bagi pengguna termuda kami. Sebagai contoh, kami tidak mengizinkan berbagi gambar atau video antar pengguna melalui chat. Sistem kami, meskipun tidak sempurna, terus ditingkatkan dan dirancang untuk secara proaktif memblokir informasi identitas pribadi—seperti nomor telepon dan nama pengguna—dan chat antara pengguna yang belum terverifikasi usianya difilter secara ketat (dan tidak diizinkan bagi pengguna di bawah 13 tahun). Roblox adalah salah satu platform terbesar yang mewajibkan estimasi usia wajah agar dapat chat lebih bebas dengan orang yang kamu kenal. Tujuan kami adalah menjadi yang terdepan di dunia dalam hal keamanan untuk game online, dan kami berkomitmen untuk menjadikan teknologi keamanan utama kami menjadi open source.

Hari ini, kami merilis model open-source terbaru kami, Sentinel, yaitu sistem AI untuk membantu mendeteksi interaksi yang berpotensi membahayakan anak. Long before something becomes explicit, Jauh sebelum komunikasi kelihatan nyata, Sentinel sudah membantu kami menyelidiki lebih awal serta mendeteksi pola, dan jika relevan, melaporkan kepada penegak hukum.

Sentinel telah berjalan di Roblox sejak akhir 2024 dan merupakan tambahan terbaru pada perangkat keamanan open source kami. Pada semester pertama tahun 2025, 35% kasus yang kami temukan adalah karena pendekatan proaktif ini, dan banyak di antaranya ketahuan sebelum laporan penyalahgunaan diajukan. Ketika dikombinasikan dengan sistem moderasi kami yang lain, Sentinel memperluas perangkat yang kami miliki untuk mendeteksi dan menindaklanjuti pelanggaran yang berpotensi serius ini.

Memahami Tantangan

Bahaya terhadap anak-anak adalah tantangan di seluruh industri, membuat teknologi baru dan kolaborasi terbuka menjadi sangat berharga. Grooming anak secara online—pembangunan kepercayaan dan hubungan emosional secara sistematis dengan tujuan akhir eksploitasi—pada dasarnya merupakan proses yang samar dan bertahap. Interaksi ini jarang terjadi dan biasanya dimulai dari chat santai, pesan yang suportif, dan kesamaan minat. Pesan yang awalnya tampak tidak berbahaya bisa memiliki makna lain setelah ngobrol lama. Pelaku kejahatan sering menggunakan bahasa yang tidak mencolok, tidak langsung, atau tersandi—sengaja membuat pola sulit dideteksi, bahkan untuk peninjau manusia. Oleh karena itu, sistem deteksi kami terus berkembang untuk mengikuti cara baru yang digunakan pelaku kejahatan untuk mengakali sistem kami. Selain itu, data pelatihan untuk grooming jarang ditemukan sehingga sulit untuk melatih sistem pembelajaran mesin.

Dampak Proaktif dan Informasi Operasional

Sentinel saat ini beroperasi dalam skala besar di sistem kami. Pada semester pertama tahun 2025, kemampuan proaktifnya telah membantu tim kami mengirimkan sekitar 1.200 laporan ke National Center for Missing and Exploited Children. Meskipun masih bisa terus diperbaiki, kemampuan deteksi dini Sentinel sudah membantu kami mengidentifikasi dan menyelidiki potensi pelaku kejahatan lebih awal, ketika pesannya masih tidak terlalu mencolok dan sebelum ada laporan penyalahgunaan dari pengguna.

Tenaga ahli manusia sangat penting untuk menyelidiki dan melakukan intervensi dalam kasus yang terdeteksi oleh Sentinel. Analis terlatih, biasanya mantan agen CIA atau FBI dan tenaga ahli lainnya, meninjau kasus yang ditandai Sentinel sebagai potensi pelanggaran. Keputusan para analis ini menciptakan masukan yang memungkinkan kami untuk terus menyempurnakan dan memperbarui contoh, indeks, dan materi pelatihan. Proses yang melibatkan manusia ini sangat penting untuk membantu Sentinel beradaptasi dan mengikuti pola dan metode baru pelaku kejahatan yang terus berkembang serta berusaha mengakali sistem deteksi kami.

Sentinel adalah bagian penting dari sistem keselamatan berlapis yang lebih besar di Roblox, yang menggabungkan alat AI inovatif dan ribuan tenaga ahli manusia. Mulai hari ini, ini juga menjadi bagian dari perangkat keamanan open source kami di Roblox. Kami percaya bahwa membangun dunia digital yang lebih aman adalah tanggung jawab bersama. Dengan sistem keamanan open source seperti Sentinel, dan berbagi pendekatan kami serta menjadi anggota pendiri organisasi seperti Robust Open Online Safety Tools (ROOST) dan proyek Lantern dari Tech Coalition, kami berharap dapat berkontribusi pada kemajuan kolektif praktik keamanan online dan komunitas online yang mengandalkannya.

Visi jangka panjang kami untuk Sentinel lebih dari sekadar percakapan. Prinsip penggunaan penyematan dan pengukuran kontrastif sangatlah adaptif. Kami secara aktif mengeksplorasi dan mengembangkan kemampuan untuk menerapkan teknik ini guna menjangkau interaksi pengguna yang lebih luas, beralih menuju pemahaman multimodal—pada teks, gambar, video, dan lainnya. Dengan menganalisis tanda-tanda ini secara bersamaan, kami berharap dapat meningkatkan pemahaman yang lebih menyeluruh dan kuat tentang perilaku pengguna, sehingga kami dapat mengidentifikasi dengan lebih baik potensi risiko keamanan yang mungkin terlewatkan oleh sistem modalitas tunggal.

Inside the Tech: Cara Sentinel Mendeteksi Ancaman Sebelum Terjadi

Agar sistem moderasi bisa bertindak cepat sebelum ancaman dilaksanakan, Sentinel harus menganalisis lebih dari 6 miliar chat setiap hari secara hampir real time dan dalam skala besar. Sentinel terus mengambil tangkapan layar chat teks dalam snapshot berdurasi satu menit. Pesan dianalisis secara otomatis oleh ML, dengan satu-satunya tujuan untuk mengidentifikasi potensi bahaya, seperti grooming atau bahaya terhadap anak. Selain itu, kami mengumpulkan informasi ini dari waktu ke waktu, mengidentifikasi kasus dan pola yang mencurigakan lalu ditinjau dan diselidiki oleh analis manusia.

Tidak seperti alat yang mengandalkan aturan statis dan contoh berlabel, Sentinel menggunakan pelatihan pengawasan mandiri untuk mempelajari cara mengenali dan menggeneralisasi pola komunikasi saat itu terjadi. Hal ini memungkinkan Sentinel untuk mengidentifikasi ancaman yang baru dan terus berkembang.

Tim mencapai hal ini dengan mengembangkan dua indeks. Salah satunya terdiri dari komunikasi dari pengguna dengan pesan yang aman dan tidak berbahaya—disebut indeks positif. Yang lainnya berisi komunikasi yang dihapus karena kami menyimpulkan bahwa komunikasi tersebut melanggar kebijakan perlindungan anak—disebut indeks negatif. Pendekatan kontras ini membantu sistem untuk menggeneralisasi dan menemukan ancaman yang terus berkembang, meskipun ancaman tersebut tidak sama persis dengan pola komunikasi yang sebelumnya terdeteksi dalam indeks. Salah satu keunggulan utama Sentinel adalah kemampuannya bekerja tanpa memerlukan banyak contoh kasus. Hal ini sangat penting mengingat contoh kasus negatif yang tersedia sangat sedikit. Sistem produksi kami saat ini hanya menggunakan 13.000 contoh dalam indeks negatif, tetapi tetap berhasil mendeteksi potensi bahaya.

Untuk membangun indeks positif, kami menggunakan sampel riwayat chat yang dikurasi dari pengguna yang tidak memiliki riwayat pelanggaran Standar Komunitas terkait keamanan, dan memiliki interaksi positif jangka panjang secara konsisten di Roblox. Dengan menggunakan sampel riwayat chat Roblox yang dikurasi ini, dan bukan dataset teks generik, kami dapat membantu Sentinel mempelajari slang baru serta pola dan gaya bahasa spesifik di Roblox. Hal ini membantu sistem membuat perbandingan yang lebih akurat, mengurangi positif palsu, dan memungkinkan pemahaman yang lebih baik antara komunikasi normal di Roblox dan komunikasi yang melanggar.

Indeks negatif disusun dari percakapan yang di-review oleh moderator manusia kami, ketika kami menemukan bukti yang jelas tentang pelanggaran kebijakan perlindungan anak (yang telah kami tindak lanjuti). Ketika interaksi pengguna menunjukkan aktivitas yang berkelanjutan dan memprihatinkan, kami memberi label pada potongan tertentu dari percakapan tersebut sebagai contoh komunikasi yang berbahaya. Segmen yang dilabeli tersebut diubah menjadi vektor penyematan dan ditambahkan ke indeks negatif. Dengan pelatihan ini, Sentinel belajar untuk tidak hanya menandai kata atau frasa tertentu; tetapi juga mempelajari pola dan alur konteks yang biasa muncul dalam percakapan dengan niat membahayakan. Oleh karena itu, sistem dapat mengenali komunikasi berbahaya yang mungkin tidak dapat dikenali oleh sistem moderasi AI kami yang lain, meskipun komunikasi tersebut tampak tidak mencolok.

Misalnya, pesan sederhana seperti, "Hei, apa kabar?"akan cocok dengan indeks positif karena bahasanya aman. Pesan seperti, \"Dari mana asalmu?\" akan cocok dengan indeks negatif karena cocok dengan pola percakapan yang berpotensi mengarah pada grooming. Sistem membandingkan pesan baru dengan indeks ini, dan jika sistem melihat pengguna bertanya, \"Dari mana asalmu?\" sistem mungkin mulai mengumpulkan lebih banyak informasi untuk melihat apakah percakapan berlanjut ke arah negatif. Meskipun satu pesan tidak akan cukup setelah ditandai untuk di-review oleh manusia, pola yang berlanjut akan ditandai.

Pengukuran Kontras

Pendekatan pengukuran kontras ini terinspirasi oleh SimCLR, kerangka kerja pembelajaran pengawasan mandiri yang menggunakan pengukuran kontras untuk melatih model representasi gambar tanpa data berlabel. Kami telah mengadaptasi teknik ini untuk menangani data teks dan suara, sehingga memungkinkan Sentinel untuk memahami apa yang dikatakan pengguna dan bagaimana hal itu sesuai atau menyimpang dari pola yang sudah dikenal. Teknik ini bekerja dalam tiga tahap: penilaian interaksi, pelacakan pola, dan pengambilan tindakan.

Mengukur Interaksi Individu: Setiap pesan diubah menjadi penyematan, atau vektor yang merepresentasikan makna dan fitur komunikasi dari pesan tersebut. Sentinel membandingkan penyematan ini terhadap indeks positif dan negatif. Dengan menggunakan kesamaan kosinus, sistem kemudian mengukur indeks mana yang lebih cocok dengan interaksi tersebut.

Jika interaksi lebih sesuai dengan pola berbahaya di indeks negatif, maka akan diberi indikator risiko yang lebih tinggi. Pesan yang sangat tidak sesuai dengan pola komunikasi yang aman atau berbahaya akan disaring, sehingga sistem hanya fokus pada interaksi yang berpotensi mengandung sinyal penting. Hal ini dapat membantu mengurangi positif palsu dan meningkatkan akurasi pengukuran interaksi dari waktu ke waktu.

Melacak Pola dengan Kecenderungan, Bukan Hanya Rata-Rata: Pelaku kejahatan sering kali menyamarkan niat mereka dengan memasukkannya di dalam konten yang tidak berbahaya. Jika kami hanya merata-rata pengukuran pengguna dari waktu ke waktu, pesan negatif yang ingin kami deteksi bisa lolos dari pengawasan. Sebaliknya, Sentinel melihat distribusi pengukuran dari waktu ke waktu dan mengukur kecenderungan statistik—cara untuk mendeteksi apakah ada pesan berisiko tinggi yang jarang terjadi tetapi memengaruhi profil risiko menjadi naik.

Ini membantu kami mendeteksi tanda-tanda awal eskalasi menuju komunikasi berbahaya, meskipun sebagian besar interaksi tampak tidak berbahaya. Saat kami menganalisis kecenderungan, kami juga memperbaiki volume. Pengguna yang sangat aktif mungkin terlihat lebih berisiko karena komunikasi mereka menunjukkan jumlah kecocokan absolut yang lebih besar. Dengan menekankan kecenderungan statistik daripada volume keseluruhan, kami dapat menghindari positif palsu yang melibatkan pengguna yang suka mengobrol tetapi mematuhi aturan. Dengan ini, Sentinel tidak hanya terukur, tetapi lebih tepat, mampu memproses aliran komunikasi dalam jumlah besar untuk menemukan tanda-tanda langka tetapi penting yang membantu kami mendeteksi niat untuk membahayakan.

Beralih dari Tanda-Tanda ke Tindakan: Saat semakin banyak interaksi yang diukur, sistem membangun profil risiko yang dinamis. Ketika pola pengguna sangat sesuai dengan komunikasi yang berniat membahayakan, atau ada kecenderungan ke arah itu, Sentinel akan memberi tanda untuk melakukan review dan investigasi lebih dalam.