Peluncuran Lebih Banyak Bahasa untuk Model Keamanan Suara Open-Source

  • Kami memperbarui pengklasifikasi keamanan suara open-source kami dengan meningkatkan parameternya dari 94.600 menjadi 120.200 dan memperluasnya ke 7 bahasa lain.

  • Sejak pengklasifikasi versi pertama, kami telah meningkatkan akurasi. Tingkat sensitivitasnya kini sebesar 59,1% pada data chat suara berbahasa Inggris dengan tingkat positif palsu 1%. Angka ini naik 92% jika dibandingkan dengan tingkat sensitivitas 30,9% pada rilis sebelumnya.

Promosi keamanan dan kesopanan selalu menjadi aspek mendasar untuk semua hal yang kami lakukan di Roblox. Selama hampir dua dekade, kami telah membuat sistem keamanan yang canggih, dan kami terus mengembangkannya seiring kehadiran teknologi baru. Pada tahun 2024, kami menerapkan lebih dari 40 upaya untuk meningkatkan keamanan, termasuk perubahan pada Kendali Orang Tua, yang kami perbarui lagi hari ini. Kami juga meluncurkan pengklasifikasi keamanan suara open-source pertama di industri, yang telah di-download lebih dari 23.000 kali. Hari ini, kami merilis versi terbaru yang lebih akurat dan mendukung lebih banyak bahasa.

Ada banyak sistem keamanan yang membantu melindungi pengguna, termasuk pengklasifikasi ini, didukung oleh model AI. Kami menjadikan beberapa di antaranya open-source karena kami memahami bahwa berbagi kemajuan keamanan AI bermanfaat bagi seluruh industri. Oleh karena itu, kami baru-baru ini bergabung dengan ROOST, organisasi nirlaba baru yang khusus menangani isu penting dalam keamanan digital dengan mempromosikan alat keamanan open-source. Kami adalah salah satu pendirinya.

Saat mengelola volume konten dan interaksi yang terjadi di platform kami setiap hari di seluruh dunia, AI merupakan elemen penting dalam menjaga keamanan pengguna. Kami yakin bahwa model yang kami buat membantu mendukung kebutuhan kami. Pada kuartal ke-4 tahun 2024, misalnya, pengguna Roblox meng-upload 300 miliar konten. Hanya 0,01% dari miliaran video, audio, teks, chat suara, avatar, dan pengalaman virtual 3D tersebut yang terdeteksi melanggar kebijakan kami. Dan hampir semua konten yang melanggar kebijakan tersebut secara otomatis disaring dan dihapus sebelum pengguna melihatnya.

Kami telah memperbarui pengklasifikasi keamanan suara versi open-source agar lebih akurat dan membantu kami memoderasi konten dalam lebih banyak bahasa. Model baru:

  • Mendeteksi pelanggaran dalam 7 bahasa tambahan, yaitu Spanyol, Jerman, Prancis, Portugis, Italia, Korea, dan Jepang, berkat pelatihan menggunakan data multibahasa.

  • Memiliki tingkat sensitivitas yang secara keseluruhan meningkat menjadi 59,1%, naik 92% dibandingkan dengan tingkat sensitivitas 30,9% pada rilis sebelumnya, dengan tingkat positif palsu yang rendah.

  • Dioptimalkan untuk melayani dalam skala besar, menangani hingga 8.300 permintaan (yang sebagian besar tidak mengandung pelanggaran) per detik pada puncaknya.

Sejak rilis model pertama, kami mengamati penurunan rasio laporan penyalahgunaan di antara pengguna AS hingga lebih dari 50% per jam bicara. It’s also helped us moderate millions of minutes of voice chat per day more accurately than human moderators. Kami tidak pernah berhenti mengembangkan sistem keamanan kami dan akan terus memperbarui versi open-source.

Pengklasifikasi Keamanan Suara Multibahasa yang Efisien

Pengklasifikasi keamanan suara open-source kami yang pertama didasarkan pada model WavLM base+, yang disempurnakan dengan sampel audio chat suara berbahasa Inggris yang diberi label oleh mesin. Hasil yang menjanjikan dari arsitektur komprehensif ini mendorong eksperimen lebih lanjut dengan arsitektur yang disesuaikan. Kami menggunakan distilasi pengetahuan untuk mengoptimalkan kompleksitas dan akurasi model, yang bermanfaat bagi penyajian inferensi skala besar. Pengklasifikasi baru kami menggunakan unsur dasar ini, serta meningkatkan dan memperluas cakupan penggunaan data serta penyempurnaan arsitektur.

Dengan pelatihan data multibahasa, model pengklasifikasi tunggal kami dapat beroperasi dengan lancar pada bahasa apa pun di antara 8 bahasa teratas yang didukung. Peningkatan pelatihan kami membuat model ini lebih akurat dan 20% hingga 30% lebih cepat dijalankan dalam skenario inferensi umum daripada versi pertama.

Pengklasifikasi keamanan suara baru masih didasarkan pada arsitektur WavLM, tetapi konfigurasi lapisannya berbeda dari rilis sebelumnya dan rilis model lain yang juga dilatih WavLM. Secara khusus, kami menambahkan lapisan konvolusional tambahan untuk mengurangi resolusi waktu internal pada lapisan transformator. Secara total, arsitektur model baru kami memiliki 120.200 parameter, meningkat 27% dibandingkan dengan 94.600 pada versi sebelumnya. Meskipun ada peningkatan ini, model baru ini memerlukan waktu komputasi 20% hingga 30% lebih sedikit ketika digunakan dengan segmen input 4 hingga 15 detik. Hal ini tercapai karena model ini mengompresi sinyal input menjadi representasi yang lebih ringkas dibandingkan sebelumnya.

Memanfaatkan Berbagai Strategi Pelabelan

Pelatihan model komprehensif yang diawasi memerlukan kombinasi label audio dan label kelas pilihan. Kami melakukan upaya peningkatan signifikan pada saluran data agar data berlabel selalu tersedia. Landasan materi pelatihan kami berupa set data besar yang diberi label oleh mesin, yang berisi lebih dari 100.000 jam bicara dalam bahasa yang didukung. Kami secara otomatis mentranskrip ucapan dan memprosesnya melalui pengklasifikasi bahaya berbasis teks internal kami, yang juga memiliki kategori bahaya dan kebijakan yang diinginkan. Pengumpulan data mengambil sampel konten penyalahgunaan dengan probabilitas yang lebih tinggi daripada ujaran tidak berbahaya untuk mendeteksi kasus yang jarang terjadi secara lebih baik dan pelanggaran kebijakan yang kurang umum.

Label berdasarkan transkrip ucapan dan klasifikasi berbasis teks tidak dapat sepenuhnya mendeteksi nuansa yang diamati dalam konten chat suara. Jadi, kami menggunakan data yang diberi label secara manual untuk menyempurnakan model dari tahap pelatihan sebelumnya. Meskipun tugas klasifikasi tetap sama, tahap pelatihan terakhir membantu memperbaiki batas keputusan dan menekankan tingkat respons terhadap ekspresi yang spesifik dalam chat suara. Bentuk pembelajaran kurikulum ini membantu kami memaksimalkan manfaat dari contoh berharga yang diberi label oleh manusia.

Salah satu tantangan dalam pelatihan model komprehensif adalah bahwa label target dapat menjadi usang jika kebijakan pelabelan berubah seiring waktu. Jadi, saat kami menyempurnakan kebijakan suara yang dapat diterima, kami memerlukan penanganan khusus untuk data yang menggunakan standar pelabelan lama. Untuk ini, kami menggunakan pendekatan multitugas yang memungkinkan model belajar dari set data yang tidak cocok dengan kebijakan chat suara saat ini. Pendekatan ini melibatkan penggunaan kepala klasifikasi terpisah untuk kebijakan lama, yang memungkinkan bagian utama model belajar dari set data lama tanpa memengaruhi label target atau kepala klasifikasi utama.

Model yang Dikalibrasi untuk Mempermudah Pengaktifan

Penggunaan model klasifikasi memerlukan penentuan titik operasi dan pencocokan sensitivitas pengklasifikasi sesuai dengan persyaratan tugas. Untuk mempermudah pengaktifan model, kami mengalibrasi output model guna menyesuaikannya untuk moderasi chat suara. Kami memperkirakan transformasi linier sedikit demi sedikit dari set data yang tidak disertakan, secara terpisah untuk setiap kepala output dan bahasa yang didukung. Transformasi ini diterapkan selama distilasi model, yang memastikan bahwa model akhir dikalibrasi secara organik. Dengan cara ini, pemrosesan lanjutan selama inferensi tidak diperlukan.

Kami senang dapat menyampaikan informasi tentang model open-source baru ini kepada komunitas, dan berharap dapat membagikan informasi terbaru lain di masa mendatang.