Roblox Sentinel'ın Açık Kaynak Hâline Getirilmesi: Riskleri Önceden Tespit Etmeye Yönelik Yaklaşımımız

Yapay Zekâ ile Anormal Sohbet Kalıplarının Erkenden Tespit Edilmesine Yardımcı Olunması

  • Roblox'ta her yaştan 100 milyonun üzerinde kullanıcı, her gün güvenli ve olumlu bir deneyim yaşıyor.
  • Özellikle en genç kullanıcılarımız için sistemlerimizi varsayılan olarak olabildiğince güvenli hâle getirmeye çalışıyoruz. Bunu son derece ihtiyatlı politikalarımızla ve sohbetlerde tespit ettiğimiz (kişisel olarak tanımlanabilir bilgiler de dâhil olmak üzere) uygunsuz mesajları filtrelemek için yapay zekâdan yararlanarak yapıyoruz (Güvenilir Etkileşim Ağı dışında). İçerikleri proaktif şekilde denetliyor ve gerçek dünyadan alımış görsellerin sohbette paylaşılmasına izin vermiyoruz.
  • Tabii hiçbir sistem kusursuz olmadığından, sektördeki en büyük zorluklardan biri de çocukların tehlikeye atılması gibi kritik zararların tespit edilmesidir. Dostça sohbetlerden ve destekleyici mesajlardan oluşan bir sohbet dizisi, (özellikle farklı yaş gruplarından olan kullanıcılar arasında geçtiğinde) nispeten uzun süreli bir konuşma geçmişi içinde bambaşka bir anlam kazanabilir.
  • Bu nedenle potansiyel çocuk istismarı (örneğin istismar amacıyla çocukların kandırılması) gibi erken risk emarelerini tespit etmemize yardımcı olan, karşılaştırmalı öğrenme temelli yapay zekâ sistemimiz olan Roblox Sentinel'i geliştirdik. Bu sayede daha erken inceleme başlatabiliyor ve gereken durumlarda kolluk kuvvetlerine bildirimde bulunabiliyoruz.
  • Ekibimiz Sentinel sayesinde 2025 yılının ilk yarısında Ulusal Kayıp ve İstismar Edilen Çocuklar Merkezine (NCMEC) yaklaşık 1.200 potansiyel çocuk istismarı girişimi raporu sundu. Bu raporların içeriğinde filtreleme sistemlerimizi ve diğer güvenlik önlemlerimizi aşma girişimleri de bulunmaktadır.
  • Sentinel'i açık kaynak hâline getirmekten büyük heyecan duyuyoruz ve bünyemizde bulunan topluluğun aktif bir şekilde katılımda bulunarak daha güvenli bir internet ortamının inşa edilmesine yardımcı olacağını ümit ediyoruz.

Roblox'un temel bileşenlerinden biri de arkadaşlarla vakit geçirip diğer oyuncularla rekabet etmek olup bu etkinliklerin merkezinde ise iletişim yer almaktadır. Gerçekten de her gün 111 milyondan fazla kullanıcı Roblox'a geliyor; topluluk günde ortalama 6,1 milyar sohbet mesajı gönderiyor ve onlarca farklı dilde 1,1 milyon saatlik sesli iletişimde bulunuyor. Bu iletişimler gerçek dünyadaki etkileşimleri yansıtmaktadır. Bunların büyük çoğunluğu oynanış hakkındaki konuşmalardan samimi sohbetlere kadar çeşitlilik gösteren gündelik sohbetlerden oluşmaktadır. Ancak az sayıda kötü niyetli kullanıcı, sistemlerimizi aşıp muhtemel bir zarar verme girişiminde bulunabilmektedir.

Yaş grubuna göre iletişime ilişkin vizyonumuzu geçtiğimiz ay sizlerle paylaştık. Özellikle en genç kullanıcılarımız için sistemlerimizi varsayılan olarak olabildiğince güvenli hâle getirmeye çalışıyoruz. Örneğin kullanıcılar arasında sohbet yoluyla görsel veya video paylaşımına izin vermiyoruz. Sistemlerimiz mükemmel olmasa da sürekli olarak gelişmekte olup kişisel olarak tanımlanabilir bilgileri (örn. telefon numaraları ve kullanıcı adları) proaktif olarak engelleyecek şekilde tasarlanmıştır. Yaş doğrulaması yapılmamış kullanıcılar arasındaki sohbetler sıkı şekilde filtrelenmektedir (ve 13 yaş altı kullanıcılara sohbet izni verilmez). Roblox, tanıdığınız insanlarla daha özgürce iletişim kurabilmeniz için yüz tabanlı yaş tahmini gerektiren en büyük platformlardan biridir. Amacımız, çevrimiçi oyun güvenliğinde dünya lideri olmak ve temel güvenlik teknolojilerini açık kaynak olarak sunmaktır.

Bugün, en yeni açık kaynak modelimiz olan Sentinel'i, bir başka deyişle potansiyel olarak çocukların tehlikeye atılmasına yol açabilecek etkileşimleri tespit etmeye yardımcı olan bir yapay zekâ sistemini kullanıma sunuyoruz. Sentinel; bir etkileşim açıkça bir zarara dönüşmeden çok önce ufak emareleri fark etmemize, sohbetlerin gidişatını erkenden tespit etmemize ve gerektiğinde de kolluk kuvvetlerine bildirimde bulunmamıza imkân tanıyor.

Sentinel, 2024 yılının sonlarından bu yana Roblox'ta kullanılmakta olup açık kaynaklı güvenlik araç setimize eklenen en yeni bileşendir. 2025'in ilk yarısında tespit ettiğimiz olayların %35'i bu proaktif yaklaşımla ortaya çıkarılmış olup birçok durumda kötüye kullanım bildirimi yapılmadan önce önlem alınabilmiştir. Sentinel, diğer denetim sistemlerimizle birlikte kullanıldığında potansiyel olarak ciddi ihlalleri tespit edip bunlara müdahale etmemize yönelik olarak elimizde bulunan araç yelpazesini genişletmektedir.

Konunun Zorluk Derecesi

Çocukların tehlikeye atılması, sektör genelinde karşılaşılan bir sorundur. Bu nedenle yeni teknolojiler ve açık iş birliği son derece değerlidir. Çevrimiçi ortamda istismar amacıyla çocukların kandırılması; yani sistematik biçimde güven ve duygusal bağ kurulması süreci, doğası gereği sinsice ve aşamalı bir şekilde ilerler. Nadir görülen bu etkileşimler genellikle dostça sohbetler, destekleyici mesajlar ve ortak ilgi alanları etrafında başlamaktadır. Başlangıçta zararsız görünen mesajlar, daha uzun bir konuşma geçmişi içinde farklı bir anlam kazanabilmektedir. Kötü niyetli kişiler, tespit edilmesi zor sohbet kalıplarını kasıtlı olarak oluşturmak amacıyla kurnazca tasarlanmış, dolaylı ya da şifreli bir dil kullanabilir, bu da hâliyle insan denetleyiciler için bile fark edilmesi güç olabilir. Bu nedenle, kötü niyetli kişilerin sistemlerimizi atlatmak için geliştirdiği yeni yöntemlere ayak uydurabilmek amacıyla tespit sistemlerimizi sürekli olarak geliştiriyoruz. Buna ek olarak, çevrimiçi ortamda istismar amacıyla çocukların kandırılmasıyla ilgili eğitim verileri nadir bulunduğundan makine öğrenimi sistemlerini bu konuda eğitmek oldukça zordur.

Proaktif Etki ve Operasyonel Analizler

Sentinel hâlihazırda üretim ortamında büyük ölçüde kullanılmaktadır. 2025 yılının ilk yarısında Sentinel'in proaktif yetenekleri, ekibimizin Ulusal Kayıp ve İstismar Edilen Çocuklar Merkezine (NCMEC) yaklaşık 1.200 rapor göndermesine yardımcı oldu. Gelişim gösterebileceğimiz alanlar hâlâ mevcut olsa da, Sentinel'in erken tespit yetenekleri sayesinde; mesajlar hâlihazırda sinsice tasarlanmış bir hâldeyken ve kullanıcılar kötüye bildirim raporu göndererek bunların foyasını meydana çıkarmadan önce potansiyel olarak kötü niyetli kişileri belirleyip incelemeye başlayabiliyoruz. 

Sentinel'ın tespit ettiği olaylarda inceleme ve müdahale süreci dâhilinde insan uzmanlar kritik bir rol üstlenmektedir. Genellikle eski CIA veya FBI ajanları gibi alanında deneyimli analistler, Sentinel tarafından potansiyel ihlal durumu arz ettiği belirtilen olayları inceler. Bu analistler tarafından verilen kararlar örneklerin, endekslerin ve eğitim veri setlerinin sürekli olarak güncellenmesini ve iyileştirilmesini sağlayan bir geri besleme döngüsü oluşturur. İnsanın devrede olduğu bu döngü süreci, Sentinel'ın kötü niyetli kişilerin tespit sistemlerini atlatmak için geliştirdiği yeni ve değişen yöntemlere uyum sağlaması açısından kritik öneme sahiptir.

Sentinel, yenilikçi yapay zekâ araçları ile binlerce insan uzmanın bir araya geldiği çok katmanlı Roblox güvenlik sisteminin önemli bir parçasıdır. Bugün itibariyle Roblox'un açık kaynaklı güvenlik araç setinin de bir parçasıdır. Daha güvenli bir dijital dünya oluşturmanın ortak bir sorumluluk olduğuna inanıyoruz. Sentinel gibi güvenlik sistemlerini açık kaynak hâline getirerek, yaklaşımlarımızı paylaşarak ve Robust Open Online Safety Tools (ROOST) ile Tech Coalition'ın Lantern projesi gibi oluşumların kurucu üyeleri arasında yer alarak çevrimiçi güvenlik uygulamalarının ve bu uygulamalara dayanan çevrimiçi toplulukların kolektif olarak gelişimine katkı sağlamayı umuyoruz.

Sentinel için uzun vadeli vizyonumuz yalnızca metin tabanlı etkileşimlerle sınırlı değil. Gömme ve karşılaştırmalı ölçüm ilkeleri son derece uyarlanabilir niteliktedir. Bu teknikleri daha geniş bir kullanıcı etkileşimi yelpazesinde uygulamak için aktif olarak araştırma ve geliştirme çalışmaları yürütüyoruz. Hedefimiz metin, görsel, video ve diğer formatları anlayabilen bir model oluşturabilmek. Bu sinyalleri birlikte analiz ederek kullanıcı davranışına dair daha bütünsel ve sağlam bir anlayış geliştirmeyi hedefliyoruz. Böylece, yalnızca tekil veri türlerine dayanan sistemlerin gözden kaçırabileceği potansiyel güvenlik risklerini daha iyi tespit edebileceğiz.

Teknolojinin İç Yüzü: Sentinel Nasıl Önleyici Tespit Sağlıyor?

Zarar verme niyetinin eyleme dönüşmeden önce tespit edilmesi için moderasyon sistemimizin hızla aksiyon alabilmesi gerekir. Bunun için Sentinel'in analiz sürecini neredeyse gerçek zamanlı olarak ve günde 6 milyarı aşkın sohbet mesajını kapsayacak ölçekte yürütmesi gerekir. Sentinel, metin tabanlı sohbetleri sürekli olarak birer dakikalık anlık görüntüler hâlinde kaydeder. Mesajlar, yalnızca olası zararları (ör. istismar amacıyla çocukları kandırma veya çocukların tehlikeye atılması gibi durumları) tespit etmek amacıyla otomatik olarak makine öğrenimi (ML) modelleri tarafından analiz edilir. Ayrıca, bu bilgileri zaman içinde birleştirerek dikkat edilmesi gereken vaka ve kalıpları belirler, değerlendirmeleri ve araştırmaları için insan analistlere iletiriz.

Statik kurallara ve etiketlenmiş örneklere dayanan araçların aksine, Sentinel iletişim kalıplarını oluştukları anda tanımayı ve genelleştirmeyi kendi kendine öğrenen bir eğitim yöntemi kullanır. Bu sayede yeni ortaya çıkan ve gelişen tehditleri tespit edebilir.

Ekip, bu yetkinliği iki farklı endeks geliştirerek elde etti. Bu endekslerden biri, güvenli ve zararsız mesajlarla etkileşimde bulunan kullanıcıların iletişimlerinden oluşur ve buna pozitif endeks denir. Diğeri ise negatif endeks adını verdiğimiz, çocuk güvenliğini tehdit ettiği ve bu nedenle politika ihlali olarak değerlendirildiği için kaldırılmış mesajlardan oluşur. Bu karşılaştırmalı yaklaşım sistemin ortaya çıkan tehditleri, daha önce endekste tespit edilen iletişim kalıplarıyla birebir örtüşmeseler dahi genelleyerek tanımasını sağlar. Sentinel'in en önemli avantajlarından biri, verimli çalışabilmesi için çok sayıda örneğe ihtiyaç duymamasıdır. Özellikle olumsuz örneklerin düşük sıklıkta görülmesi göz önünde bulundurulduğunda bu son derece önemli bir faktördür. Mevcut üretim sistemimiz, negatif endekste yalnızca 13.000 örnekle çalışmakta olup buna rağmen potansiyel zararları başarıyla tespit edebilmektedir.

Pozitif endeksi oluşturmak için daha önce güvenlikle ilgili Topluluk Standartları'nı ihlal etmemiş ve Roblox üzerinde uzun vadeli, tutarlı ve olumlu etkileşim sergileyen kullanıcıların sohbet geçmişinden özenle seçilmiş örnekler kullanıyoruz. Genel metin veri setleri yerine Roblox sohbet geçmişinden özenle seçilmiş bu örnekleri kullanarak Sentinel'in yeni argo ifadeleri ve Roblox'a özgü dil kalıpları ile üslubu öğrenmesini sağladık. Bu sayede sistem, daha isabetli karşılaştırmalar yapabiliyor, yanlış pozitif sonuçları azaltarak tipik Roblox iletişimi ile kural ihlali içeren iletişim arasındaki farkı daha iyi ayırt edebiliyor.

Negatif endeks, insan moderatörlerimiz tarafından incelenmiş ve çocuk güvenliğini tehdit eden politika ihlallerine dair açık kanıtlar barındıran konuşmalardan (Bu konuşmalar hakkında daha önce gerekli işlemler yapılmıştır.) oluşturulur. Bir kullanıcının etkileşimleri sürekli olarak endişe verici bir seyir izliyorsa bu konuşmaların belirli kod parçaları zararlı iletişim örnekleri olarak etiketlenir. Etiketlenen bu segmentler gömme vektörlerine dönüştürülerek negatif endekse eklenir. Bu eğitim sayesinde Sentinel, yalnızca belirli kelime veya ifadeleri işaretlemekle yetinmez, gerçek zarar verme niyeti taşıyan konuşmaların izlediği bağlamsal kalıpları ve gelişim sürecini de öğrenir. Bu sayede sistem, zararlı iletişimi daha önceki yapay zekâ moderasyon sistemlerimizin fark edemeyebileceği, daha örtük biçimlerde dahi tanıyabilir.

Örneğin, "Merhaba, nasılsın?" gibi basit bir mesaj, dili zararsız olduğu için pozitif endeksle eşleşir. "Nerelisin?" gibi bir mesaj, istismar amacıyla çocukları kandırma konuşmalarının kalıplarıyla örtüştüğünden negatif endeksle eşleşir. istem, yeni mesajları bu endekslerle karşılaştırır ve örneğin bir kullanıcının "Nerelisin?" gibi bir soru sorduğunu gördüğünde, konuşmanın olumsuz bir yöne evrilip evrilmediğini anlamak için daha fazla bilgi toplamaya başlayabilir. Tek bir mesaj, insan moderatörlerin incelemesi için yeterli olmayabilir ancak devam eden bir kalıp bu durumu değiştirebilir.

Karşılaştırmalı Ölçüm

Bu karşılaştırmalı ölçüm yaklaşımı, etiketlenmiş verilere ihtiyaç duymadan görsel temsil modellerini eğitmek için kullanılan ve kendi kendini denetleyen bir öğrenme çerçevesi olan SimCLR'den esinlenilmiştir. Bu tekniği metin ve ses verileriyle çalışacak şekilde uyarladık. Bu sayede Sentinel, bir kullanıcının ne söylediğini ve bunun bilinen kalıplarla ne ölçüde örtüştüğünü veya onlardan nasıl saptığını anlayabiliyor. Bu süreç üç aşamada işler: etkileşim puanlama, kalıp takibi ve aksiyon alma.

Bireysel Etkileşimlerin Ölçülmesi: Her mesaj, aksiyonun anlamsal ve iletişimsel özelliklerini yakalayan bir vektör (yani gömme) biçimine dönüştürülür. Sentinel, bu gömmeyi pozitif ve negatif endekslerle karşılaştırır. Ardından sistem, kosinüs benzerliği yöntemiyle etkileşimin hangi endekse daha yakın olduğunu ölçer.

Etkileşim, negatif endeksteki zararlı kalıplarla daha fazla örtüşüyorsa daha yüksek bir risk göstergesi alır. Güvenli veya zararlı iletişim kalıplarından herhangi biriyle anlamlı bir şekilde örtüşmeyen mesajlar ise filtrelenir; dolayısıyla sistem yalnızca potansiyel sinyal içeren etkileşimlere odaklanabilir. Bu yaklaşım, yanlış pozitif sonuçların azaltılmasına ve zaman içinde etkileşimlerin ölçüm doğruluğunun artırılmasına yardımcı olur.

Yalnızca Ortalamalarla Değil, Sapmalarla da Kalıpların Takibi: Kötü niyetli kullanıcılar, zararlı niyetlerini genellikle zararsız içeriklerin arasına gizleyerek kamufle eder. Yalnızca zaman içinde bir kullanıcının ölçümlerinin ortalamasını alsaydık tespit etmek istediğimiz olumsuz mesajlar karmaşa içinde kaybolabilirdi. Sentinel, bunun yerine zaman içindeki ölçümlerin dağılımını inceler ve istatistiksel sapmayı ölçer. Yani risk profilini yukarı çeken nadir, yüksek riskli mesajların varlığını tespit etmeye yönelik bir yöntem kullanır.

Bu sayede, çoğu etkileşim zararsız görünse bile tehlikeli iletişime doğru bir tırmanışın erken belirtilerini tespit edebiliyoruz. Sapma analizinde aynı zamanda iletişim hacmini de dikkate alarak düzeltme yapıyoruz. Çünkü çok aktif kullanıcılar, daha yüksek sayıda eşleşme göstermeleri nedeniyle gerçekte olduklarından daha riskli görünebilir. Genel hacim yerine istatistiksel sapmaya odaklanarak konuşkan ama kurallara uygun kullanıcılarla ilgili yanlış pozitif sonuçların önüne geçebiliyoruz. Bu sayede Sentinel yalnızca ölçeklenebilir değil, aynı zamanda daha hassas hâle geliyor. Çok büyük hacimli iletişim akışlarını işleyerek zarar verme niyetini tespit etmemizi sağlayan nadir ancak kritik sinyalleri yakalayabiliyor.

Sinyalden Aksiyona Geçiş: Daha fazla etkileşim ölçüldükçe sistem dinamik bir risk profili oluşturur. Bir kullanıcının kalıpları zarar verme niyeti taşıyan mesajlarla çok büyük ölçüde örtüştüğünde ya da sapma bu yönde ilerlediğinde, Sentinel daha derinlemesine inceleme ve değerlendirme için bir uyarı sinyali tetikler.